ตัวสร้างและแสดงผลการแจกแจงดิริชเลต์

Q: ทำไมองค์ประกอบจึงมีสหสัมพันธ์ลบ?

เพราะผลรวมของทุกองค์ประกอบต้องเท่ากับ 1 เมื่อองค์ประกอบหนึ่งเพิ่มขึ้น อย่างน้อยอีกองค์ประกอบหนึ่งมักลดลง

Q: ทำไมตัวอย่างจึงเกาะตามมุมหรือขอบ?

ถ้า α อย่างน้อยหนึ่งตัวน้อยกว่า 1 หรือค่าความเข้มข้นรวมต่ำ มวลจะโน้มไปใกล้ขอบของ simplex

Q: ทำไมผลรวมของแถวที่ส่งออกดูไม่เท่ากับ 1 พอดี?

ค่าที่ส่งออกหลังปัดเศษอาจดูคลาดเคลื่อนเล็กน้อย แต่ตัวอย่างภายในก่อนปัดเศษยังมีผลรวมเท่ากับ 1

Q: ต่างจากการแจกแจงเบตาอย่างไร?

ดิริชเลต์ใช้กับเวกเตอร์ความน่าจะเป็น ส่วนเบตาเป็นกรณี 2 องค์ประกอบเมื่อดูเพียงค่าเดียว

Q: ควรเริ่มตรวจอะไร?

เริ่มจากมิติต่ำที่เข้าใจง่าย แล้วปรับค่า α หนึ่งตัวหรือค่าความเข้มข้นทีละอย่าง

การแจกแจงดิริชเลต์คืออะไร?

การแจกแจงดิริชเลต์สร้างเวกเตอร์ความน่าจะเป็นที่แต่ละองค์ประกอบไม่ติดลบและผลรวมเท่ากับ 1 พื้นที่นี้เรียกว่า simplex

ใช้ได้กับ prior แบบเบย์สำหรับความน่าจะเป็นเชิงหมวดหมู่ สัดส่วนหัวข้อ น้ำหนักผสม และข้อมูลทดสอบแบบความน่าจะเป็น โดยไม่ต้องใส่ข้อมูลส่วนบุคคล

α_i ตีความได้คล้าย pseudo-count ขนาดสัมพัทธ์กำหนดเวกเตอร์ค่าเฉลี่ย
α0 = Σα_i คือความเข้มข้น ยิ่งสูง ตัวอย่างยิ่งกระจุกใกล้ค่าเฉลี่ย
α_i<1 ทำให้ตัวอย่างเกาะใกล้มุมหรือขอบง่ายขึ้น
K=2 เป็นกรณีพิเศษที่สอดคล้องกับการแจกแจงเบตา

ค่าตั้งต้น

เลือกค่าตั้งต้นที่ใช้บ่อย แล้วปรับค่าเพิ่มเติมได้หลังจากนำไปใช้

เคล็ดลับ: เมื่อ K มีค่ามาก ให้ใช้โปรไฟล์ JSON สำหรับแชร์แทน URL ที่ยาว

ตัวสร้าง

เลือกวิธีตั้งพารามิเตอร์ สร้างตัวอย่าง แล้วตรวจค่าเฉลี่ย marginal distribution และค่าตรวจสอบ

วิธีตั้งพารามิเตอร์

มิติ (K) ป้ายกำกับ (คั่นด้วยจุลภาค)

α (เท่ากันทุกองค์ประกอบ)

ใช้ α_i = α กับทุกองค์ประกอบ เป็นจุดเริ่มต้นที่ดูความต่างระหว่างมุมกับกึ่งกลางได้ง่าย

ความเข้มข้น (α0)

ป้อนเวกเตอร์ค่าเฉลี่ย m ที่ผลรวมเท่ากับ 1 แล้วระบบจะแปลงเป็น α = m×α0

องค์ประกอบ	ค่าเฉลี่ย (m_i)

ค่า α ทุกตัวต้องมากกว่า 0 ค่าที่น้อยกว่า 1 มักทำให้เวกเตอร์เบาบางและโน้มไปทางมุม

องค์ประกอบ	α_i

จำนวนตัวอย่าง (N) จำนวน bin (histograms)

วิธีสุ่ม

องค์ประกอบที่แสดง (marginal)

ฮิสโตแกรม marginal ใช้ได้สูงสุด 5 องค์ประกอบ หาก K มีค่ามาก ให้ใช้ช่องหมายเลขแทนรายการเช็กบ็อกซ์

แสดง heatmap สหสัมพันธ์ (ค่าทฤษฎี เฉพาะ K เล็ก)

ปัดเศษตัวอย่างแสดงผล (ตำแหน่งทศนิยม) ปัดเศษตอนส่งออก (ไม่บังคับ) โหมด JSON

รูปแบบคัดลอก (ตัวอย่าง)

สถิติรายองค์ประกอบ

องค์ประกอบ	ค่าเฉลี่ยทฤษฎี	ค่าเฉลี่ยตัวอย่าง	ความแปรปรวนทฤษฎี	ความแปรปรวนตัวอย่าง

ตัวอย่างแสดงผล (20 แถวแรก)

โปรไฟล์ JSON (บันทึก/กู้คืนการตั้งค่า)

URL แชร์มีเฉพาะการตั้งค่า หาก K มีค่ามาก ให้บันทึกและกู้คืนด้วยโปรไฟล์ JSON แทน URL ที่ยาว

นำเข้าโปรไฟล์ JSON

เคล็ดลับ: อย่าใส่ป้ายกำกับที่ละเอียดอ่อน เช่น ชื่อลูกค้า ลงในโปรไฟล์ที่แชร์

วิธีใช้เครื่องมือนี้

ใช้เมื่อคุณต้องการเวกเตอร์ความน่าจะเป็นที่ทุกค่ามีค่าอย่างน้อย 0 และผลรวมเท่ากับ 1

ใช้ใน 3 ขั้นตอน

เริ่มจากมิติต่ำ เช่น K=3 และ preset ที่ตีความง่าย
สร้างตัวอย่าง แล้วดูค่าเฉลี่ยทางทฤษฎี marginal distribution และตารางตัวอย่างร่วมกัน
ถ้าต้องการแยกผลของค่าเฉลี่ยกับความเข้มข้น ให้ปรับค่า α เพียงตัวเดียวหรือปรับเฉพาะความเข้มข้นรวม

อ่านผลลัพธ์

แต่ละแถวคือเวกเตอร์ความน่าจะเป็น ค่าเฉลี่ยแสดงสัดส่วนคาดหวังของแต่ละองค์ประกอบ ส่วนความเข้มข้นควบคุมว่าตัวอย่างกระจุกใกล้ค่าเฉลี่ยมากแค่ไหน

ตรวจขอบ

α_i<1 ทำให้มวลใกล้มุมหรือขอบของ simplex เพิ่มขึ้น
ค่าที่ส่งออกหลังปัดเศษอาจดูเหมือนผลรวมคลาดจาก 1 เล็กน้อย
ถ้า K=2 ให้เปรียบเทียบกับเครื่องมือเบตา ซึ่งเป็นกรณีพิเศษที่สอดคล้องกัน

คำถามที่พบบ่อย

ทำไมองค์ประกอบจึงมีสหสัมพันธ์ลบ?