디리클레 분포란?
디리클레 분포는 각 성분이 0 이상이고 전체 합이 1인 확률 벡터 (x1,…,xK) 위의 분포입니다. 이 공간을 simplex라고 합니다.
- α는 의사 카운트처럼 해석할 수 있으며, 상대적 크기가 평균 벡터를 정합니다.
- α0 = Σα_i는 집중도입니다. 클수록 평균 주변에 조밀하고, 작을수록 변동이 큽니다.
- α_i<1인 성분이 있으면 표본이 모서리나 경계에 붙기 쉽습니다.
- K=2는
x1 ~ Beta(α1,α2)인 특수 사례입니다.
범주형 확률의 베이지안 사전분포, 토픽 비율, 혼합 가중치, 확률형 테스트 데이터에 사용할 수 있습니다. 개인정보 입력은 필요하지 않습니다.
프리셋
실용적인 프리셋을 선택하세요. 적용 후 값을 조정할 수 있습니다.
Tip: For large K, use profile JSON for sharing instead of long URLs.
생성기
파라미터 방식을 선택하고 표본을 생성한 뒤 평균, 주변분포, 진단값을 확인합니다.
성분별 통계
| 성분 | 이론 평균 | 표본 평균 | 이론 분산 | 표본 분산 |
|---|
표본 미리보기(처음 20개)
프로필 JSON(설정 저장/복원)
공유 URL에는 설정만 포함됩니다. K가 큰 경우 긴 URL 대신 프로필 JSON으로 저장·복원하세요.
팁: 공유 프로필에는 고객명 같은 민감한 라벨을 넣지 마세요.
이 도구 사용법
0 이상이며 합이 1이어야 하는 확률 벡터를 만들 때 사용합니다.
3단계로 사용하기
K=3처럼 작은 차원과 해석하기 쉬운 프리셋에서 시작합니다.- 표본을 생성한 뒤 이론 평균, 주변분포, 행 미리보기를 함께 확인합니다.
- 평균 이동과 집중도 변화를 분리하려면
α값 하나 또는 전체 집중도만 바꿉니다.
결과 읽기
각 행은 하나의 확률 벡터입니다. 평균은 각 성분의 기대 비율을 보여주고, 집중도는 표본이 그 평균 근처에 얼마나 조밀한지를 조절합니다.
경계 확인
α_i<1이면 simplex 모서리나 경계 근처의 질량이 늘어납니다.- 반올림된 내보내기는 표시상 합이 1에서 약간 벗어나 보일 수 있습니다.
K=2라면 대응되는 특수 사례인 베타 도구와 비교하세요.
자주 묻는 질문
성분들이 음의 상관을 보이는 이유는 무엇인가요?
모든 성분의 합이 1이어야 하므로 한 성분이 커지면 적어도 다른 성분 하나가 줄어드는 경향이 있습니다.
표본이 모서리에 붙는 이유는 무엇인가요?
하나 이상의 α 값이 1보다 작거나 전체 집중도가 작으면 밀도가 simplex 경계 쪽으로 이동합니다.
내보낸 행의 합이 정확히 1이 아닌 것처럼 보이는 이유는 무엇인가요?
반올림된 출력은 정확한 합이 흐트러져 보일 수 있지만, 반올림 전 내부 표본은 여전히 합이 1입니다.
베타 분포와는 어떻게 다른가요?
디리클레는 확률 벡터를 다루고, 베타는 두 성분 특수 사례를 한 성분 기준으로 본 것입니다.
처음에는 무엇부터 확인하면 좋나요?
낮은 차원의 기준값에서 시작한 뒤 α 값 하나 또는 집중도 설정 하나씩 바꾸세요.