디리클레 분포 생성기와 시각화

Q: 성분들이 음의 상관을 보이는 이유는 무엇인가요?

모든 성분의 합이 1이어야 하므로 한 성분이 커지면 적어도 다른 성분 하나가 줄어드는 경향이 있습니다.

Q: 표본이 모서리에 붙는 이유는 무엇인가요?

하나 이상의 α 값이 1보다 작거나 전체 집중도가 작으면 밀도가 simplex 경계 쪽으로 이동합니다.

Q: 내보낸 행의 합이 정확히 1이 아닌 것처럼 보이는 이유는 무엇인가요?

반올림된 출력은 정확한 합이 흐트러져 보일 수 있지만, 반올림 전 내부 표본은 여전히 합이 1입니다.

Q: 베타 분포와는 어떻게 다른가요?

디리클레는 확률 벡터를 다루고, 베타는 두 성분 특수 사례를 한 성분 기준으로 본 것입니다.

Q: 처음에는 무엇부터 확인하면 좋나요?

낮은 차원의 기준값에서 시작한 뒤 α 값 하나 또는 집중도 설정 하나씩 바꾸세요.

디리클레 분포란?

디리클레 분포는 각 성분이 0 이상이고 전체 합이 1인 확률 벡터 (x1,…,xK) 위의 분포입니다. 이 공간을 simplex라고 합니다.

α는 의사 카운트처럼 해석할 수 있으며, 상대적 크기가 평균 벡터를 정합니다.
α0 = Σα_i는 집중도입니다. 클수록 평균 주변에 조밀하고, 작을수록 변동이 큽니다.
α_i<1인 성분이 있으면 표본이 모서리나 경계에 붙기 쉽습니다.
K=2는 x1 ~ Beta(α1,α2)인 특수 사례입니다.

범주형 확률의 베이지안 사전분포, 토픽 비율, 혼합 가중치, 확률형 테스트 데이터에 사용할 수 있습니다. 개인정보 입력은 필요하지 않습니다.

프리셋

실용적인 프리셋을 선택하세요. 적용 후 값을 조정할 수 있습니다.

팁: K가 큰 경우 긴 URL 대신 프로필 JSON으로 공유하세요.

생성기

파라미터 방식을 선택하고 표본을 생성한 뒤 평균, 주변분포, 진단값을 확인합니다.

파라미터 방식

차원(K)

라벨(쉼표로 구분)

α(모든 성분 동일)

모든 성분에 α_i = α를 사용합니다. 모서리와 중심 차이를 보기 좋은 시작점입니다.

집중도(α0)

합이 1인 평균 벡터 m을 입력하면 α = m×α0로 변환합니다.

성분	평균(m_i)

모든 α 값은 0보다 커야 합니다. 1보다 작은 값은 모서리 쪽으로 몰리는 희소 벡터를 만들기 쉽습니다.

성분	α_i

표본 수 (N)

구간 수 (histograms)

난수 방식

표시할 성분(주변분포)

주변 히스토그램에는 최대 5개 성분을 사용합니다. K가 크면 체크박스 목록 대신 번호 입력을 사용하세요.

상관 히트맵 표시(이론값, 작은 K만)

미리보기 반올림(소수 자릿수)

내보내기 반올림(선택)

JSON 모드

복사 형식(미리보기)

성분별 통계

성분	이론 평균	표본 평균	이론 분산	표본 분산

표본 미리보기(처음 20개)

프로필 JSON(설정 저장/복원)

공유 URL에는 설정만 포함됩니다. K가 큰 경우 긴 URL 대신 프로필 JSON으로 저장·복원하세요.

프로필 JSON 가져오기

팁: 공유 프로필에는 고객명 같은 민감한 라벨을 넣지 마세요.

이 도구 사용법

0 이상이며 합이 1이어야 하는 확률 벡터를 만들 때 사용합니다.

3단계로 사용하기

K=3처럼 작은 차원과 해석하기 쉬운 프리셋에서 시작합니다.
표본을 생성한 뒤 이론 평균, 주변분포, 행 미리보기를 함께 확인합니다.
평균 이동과 집중도 변화를 분리하려면 α 값 하나 또는 전체 집중도만 바꿉니다.

결과 읽기

각 행은 하나의 확률 벡터입니다. 평균은 각 성분의 기대 비율을 보여주고, 집중도는 표본이 그 평균 근처에 얼마나 조밀한지를 조절합니다.

경계 확인

α_i<1이면 simplex 모서리나 경계 근처의 질량이 늘어납니다.
반올림된 내보내기는 표시상 합이 1에서 약간 벗어나 보일 수 있습니다.
K=2라면 대응되는 특수 사례인 베타 도구와 비교하세요.

자주 묻는 질문

성분들이 음의 상관을 보이는 이유는 무엇인가요?