Générateur et visualiseur de distribution de Dirichlet

Qu’est-ce qu’une distribution de Dirichlet ?

La distribution de Dirichlet est une loi définie sur des vecteurs de probabilités (x1,…,xK) où chaque composante est positive ou nulle et où la somme vaut 1. Cet espace est appelé simplexe.

α (alpha) peut se lire comme un ensemble de pseudo-comptages. Les rapports entre les α déterminent la moyenne théorique.
α0 = Σα_i mesure la concentration : plus α0 est grand, plus les échantillons restent proches de la moyenne ; plus α0 est petit, plus ils varient.
Si certains α_i < 1, les échantillons deviennent souvent creux et collent aux coins ou aux arêtes du simplexe.
K=2 est un cas particulier : on retrouve la loi bêta sur une probabilité unique.

Cas d’usage fréquents : priors bayésiens pour des probabilités catégorielles, parts de sujets, poids de mélange ou données de test de type probabilité.

Préréglages

Choisissez un préréglage utile ; il régénère aussitôt et vous pouvez ensuite affiner les valeurs.

Astuce : pour les grands K, utilisez le profil JSON plutôt qu’une URL très longue.

Générateur

Choisissez une paramétrisation, générez des échantillons, puis examinez les moyennes, les marginales et les diagnostics.

Paramétrisation

Dimension (K) Libellés (séparés par des virgules)

α (identique pour toutes les composantes)

Toutes les composantes utilisent α_i = α. C’est un bon point de départ pour voir l’effet “coins contre centre”.

Concentration (α0)

Saisissez un vecteur moyen m (somme = 1). L’outil en déduit α = m×α0.

Composante	Moyenne (m_i)

Toutes les valeurs α doivent être strictement positives. Des valeurs plus petites que 1 favorisent des vecteurs clairsemés, proches des coins.

Composante	α_i

Taille d’échantillon (N) Classes (histogrammes)

Mode aléatoire

Composantes à afficher (marginales)

Jusqu’à 5 composantes sont utilisées pour les histogrammes marginaux. Pour les grands K, utilisez le champ d’indices.

Afficher la carte de chaleur des corrélations (théorie, petits K seulement)

Arrondi d’aperçu (décimales) Arrondi à l’export (optionnel) Mode JSON

Format de copie (aperçu)

Statistiques par composante

Composante	Moyenne théorique	Moyenne observée	Variance théorique	Variance observée

Aperçu des échantillons (20 premiers)

Profil JSON (enregistrer ou restaurer les réglages)

Les URL de partage contiennent uniquement les réglages. Pour les grands K, préférez le profil JSON afin d’éviter des URL trop longues.

Importer un profil JSON

Astuce : n’incluez pas de libellés confidentiels dans les profils partagés.

Utiliser efficacement Générateur et visualiseur de distribution de Dirichlet

Commencez par un cas simple et reproductible, puis modifiez un seul paramètre à la fois. Vous saurez ainsi ce qui fait réellement bouger la forme, la moyenne ou les diagnostics.

Comment ça fonctionne

La page exécute les calculs localement dans votre navigateur et n’arrondit que pour l’affichage. Vérifiez les bornes, la taille d’échantillon, le mode aléatoire et les hypothèses avant d’interpréter un écart.

Quand l’utiliser

Utilisez cet outil pour préparer des données de test, expliquer une loi en cours ou comparer rapidement plusieurs hypothèses avant une modélisation plus détaillée.

Erreurs fréquentes à éviter

Changer plusieurs réglages à la fois.
Comparer deux sorties sans noter la seed, les bornes et la taille d’échantillon.
Conclure à partir de valeurs arrondies seulement.
Oublier l’effet des bornes ou de la concentration sur la forme.

Voir aussi

FAQ

Pourquoi les composantes sont-elles négativement corrélées ?

Parce que les composantes doivent sommer à 1. Quand l’une augmente, au moins une autre doit diminuer ; la covariance théorique est donc négative pour i≠j.

Pourquoi les échantillons collent-ils aux coins ?

Si certains α_i<1 ou si α0 est faible, la densité se concentre près des frontières du simplexe, ce qui produit des vecteurs clairsemés.

L’arrondi change-t-il la contrainte Σ=1 ?

Oui, à l’export un arrondi peut faire perdre l’égalité exacte. L’aperçu arrondi n’altère toutefois pas les échantillons sous-jacents.

Le mode avec graine est-il sûr ?

Non. Il sert uniquement à la reproductibilité. Utilisez le mode sécurisé (CSPRNG) pour un aléatoire sensible.

Que faire en premier sur cette page ?

Commencez par une dimension faible et un preset simple, puis modifiez un seul paramètre à la fois.

Mode d'emploi de Générateur et visualiseur de distribution de Dirichlet

Ce que fait cet outil

Cette page sert à comparer des scénarios dans un cadre contrôlé. Elle aide à isoler l’effet d’un paramètre plutôt qu’à mélanger plusieurs changements simultanés.

Validation des entrées

Avant d’exécuter un calcul ou une génération, vérifiez le format des paramètres, les bornes, le mode aléatoire et la taille d’échantillon. Un résultat surprenant vient souvent d’une hypothèse incohérente, pas d’un bug.

Ordre d’utilisation conseillé

Lancez d’abord un scénario de référence, notez le résultat, puis modifiez un seul paramètre prioritaire. Comparez ensuite uniquement les métriques utiles à votre décision.

Quand revoir les hypothèses

Revenez sur les entrées si l’échelle change, si les contraintes métier évoluent ou si un résultat ne correspond plus à l’intuition du domaine. Le premier scénario reste une référence, mais plus une vérité finale.

Hub des distributions
Parcourez les générateurs de lois et les diagnostics d’aléatoire.
Échantillonneur de distributions
Échantillonnez rapidement plusieurs lois usuelles dans un seul outil.
Générateur de distribution bêta
Quand K=2, la loi de Dirichlet se ramène à la loi bêta.
Générateur de JSON aléatoire
Créez des objets de test qui ressemblent à des vecteurs de probabilités.
Tests d’aléatoire
Ajoutez un contrôle rapide de la qualité de l’aléatoire.
Guide Probabilité et simulation
Approfondissez les liens entre distributions et simulation.