Cohen の κ 計算機｜評価者間一致度・偶然一致補正

使い方

人手ラベリング、判定ルールの二重確認、2 回のコーディング結果の比較などに向いています。閾値調整が主題なら ROC AUC、1 つの閾値での分類性能なら混同行列を使います。

生の評価結果でも、集計済みの表でも使えます。件数データはブラウザ内に残り、共有 URL には入りません。

評価者A, 評価者B のペア

計算すると、一致率と偶然一致を差し引いた一致度を確認できます。

各カテゴリの行合計、列合計、対角一致数を並べます。見た目の一致率が似ていても κ が動く理由を、カテゴリ偏りの観点から確認できます。

カテゴリ	評価者A 合計	評価者B 合計	対角一致数

一致率は「どれだけ同じ判定になったか」を示します。Cohen の κ は、カテゴリ周辺度数だけでも起こりうる偶然一致を差し引いて、実質的な一致の強さを見ます。

1 つのカテゴリに大きく偏ると、2 人がそのカテゴリで一致する確率は偶然でも高くなります。そのため一致率が高く見えても、偶然一致を引いた κ は中程度に留まることがあります。

片方が予測、もう片方が正解なら混同行列を使います。このページは、両側が評価者で「偶然を超えてどれだけ一致しているか」を見るための一致度分析です。

なぜ一致率だけでは不十分なのですか？

一致率は、どの一致も同じ重みで数えます。カテゴリの偏りが大きいと、偶然でも一致しやすくなるため、一致率だけでは実質的な一致の強さを読み違えることがあります。Cohen の κ はその偶然一致分を差し引いて評価します。

一致率が高いのに κ が低めになるのはなぜですか？

1 つのカテゴリが極端に多いと、偶然一致として期待される割合も大きくなります。そのため見た目の一致率が高くても、偶然一致を差し引いた κ は控えめになることがあります。

混同行列とはどう違いますか？

混同行列は通常、予測と正解を比べて分類性能を見るページです。Cohen の κ は 2 人の評価者や 2 回のラベリング結果が、偶然を超えてどれだけ一致しているかを見る一致度分析です。

weighted kappa に対応していますか？

いいえ。初版は名義尺度カテゴリに対する非加重の Cohen の κ と、評価者 2 人に限定しています。

混同行列計算機｜正解率・適合率・再現率・特異度・F1｜CalcBE
TP・FP・TN・FN から、正解率・適合率・再現率・特異度・F1・陽性率をまとめて確認できる混同行列計算機です。2 値分類の結果を素早く点検したいときに使えます。
MCC 計算機｜Matthews 相関係数とバランスドアキュラシー｜CalcBE
TP・FP・TN・FN から、Matthews 相関係数 (MCC)、バランスドアキュラシー、適合率、再現率、特異度、陽性率、正解率をまとめて確認できる 2 値分類向け計算機です。
バランスドアキュラシー計算機｜再現率・特異度・正解率比較｜CalcBE
TP・FP・TN・FN から、バランスドアキュラシー、再現率、特異度、適合率、陽性率、正解率を比較できる 2 値分類向け計算機です。クラス不均衡の見抜きに向いています。

統計（推定・検定）ガイド｜Bayes・2x2表・集団負荷を用途別に選ぶ｜CalcBE
Bayes 更新、2x2表、集団負荷、分類評価を、最初に開くページと次に進むページまで用途別に整理した統計ガイドです。式・オッズ・表・集団負荷の違いを短く比較できます。

読み込み負荷を下げるため、コメントは必要なときだけ読み込みます。