ディリクレ分布とは?
ディリクレ分布は、確率ベクトル (x1,…,xK)(各成分が0以上で合計が1)の分布です。この空間は単体(simplex)と呼ばれます。
- α(alpha)は「擬似カウント」のように解釈でき、相対比が平均ベクトルを決めます。
- α0 = Σα_i を集中度として表示します。α0が大きいほど平均付近に集中し、α0が小さいほどばらつきが大きくなります。
- α_i < 1 を含むと、角/辺(境界)に寄りやすくなり、スパースな確率ベクトルが出やすいです。
- K=2 は特別ケースで、
x1 ~ Beta(α1,α2)になります(本ツールはBeta重ね描きと導線を用意しています)。
ユースケース例:カテゴリ確率の事前分布(ベイズ)、トピック割合、混合比(mixture weights)、確率っぽいテストデータの作成。個人情報の入力は不要です。
プリセット
用途が伝わるプリセットを選んでください(即時に再生成されます。適用後に微調整もできます)。
ヒント:Kが大きい場合は、共有URLではなく profile JSON で保存/復元すると安全・簡単です。
ジェネレーター
パラメータ化を選び、乱数を生成して、平均・周辺分布・診断を確認できます。
成分ごとの統計
| 成分 | 理論平均 | サンプル平均 | 理論分散 | サンプル分散 |
|---|
サンプルプレビュー(先頭20行)
profile JSON(設定の保存/復元)
共有URLは設定のみです。Kが大きい場合は、profile JSON で保存/復元するとURLが長くならず便利です。
注意:共有するprofileに機密ラベル(顧客名など)を入れないでください。
FAQ
なぜ成分どうしが負に相関するの?
合計が1という制約があるため、ある成分が増えると他の成分が減りやすくなります(理論共分散は i≠j で負)。
なぜ角に張り付くようなサンプルになるの?
α_i<1 を含む、または α0 が小さいと、境界(角/辺)付近に密度が寄りやすくなり、スパースなベクトルが増えます。
丸めると Σ=1 は崩れますか?
はい。エクスポートで丸めると、丸め後の行は合計が1にならないことがあります。プレビュー丸めは内部サンプルを変えないので安全です。
Seededは安全ですか?
いいえ。Seededは再現性のための疑似乱数です。安全性が必要な用途では Secure(CSPRNG)を使ってください。
関連ツール
- 分布(子ハブ)分布ツールと乱数診断をまとめて探せます。
- Distribution sampler主要な分布をまとめてサンプリングできます。
- ベータ分布 乱数ジェネレーターK=2のディリクレはBeta。確率値(0〜1)の生成に便利です。
- Random JSON generatorJSONテストデータ(配列/NDJSON)を生成できます。
- Random CSV generatorCSV形式のテストデータを生成できます。
- Randomness tests乱数の偏りを簡単に確認できます。
- 確率・シミュレーション関連トピックを学びながら探索できます。