使い方
- 各行に評価結果があるなら評価ペア、すでに集計済みなら集計表を選びます。
- 計算して、観測一致率とカテゴリ周辺度数から決まる期待一致率を並べて確認します。
- 1 つのカテゴリに偏りがあると κ が低めに出やすいので、一致率だけで判断せず両方を読みます。
Wave 5 ja 展開
2 人の評価者の一致度を偶然一致込みで読む
人手ラベリング、判定ルールの二重確認、2 回のコーディング結果の比較などに向いています。閾値調整が主題なら ROC AUC、1 つの閾値での分類性能なら混同行列を使います。
入力
生の評価結果でも、集計済みの表でも使えます。件数データはブラウザ内に残り、共有 URL には入りません。
計算すると、一致率と偶然一致を差し引いた一致度を確認できます。
一致度マトリクス
カテゴリ別集計
各カテゴリの行合計、列合計、対角一致数を並べます。見た目の一致率が似ていても κ が動く理由を、カテゴリ偏りの観点から確認できます。
| カテゴリ | 評価者A 合計 | 評価者B 合計 | 対角一致数 |
|---|
κ の読み方
一致率は「どれだけ同じ判定になったか」を示します。Cohen の κ は、カテゴリ周辺度数だけでも起こりうる偶然一致を差し引いて、実質的な一致の強さを見ます。
一致率が高くても κ が控えめなことがある理由
1 つのカテゴリに大きく偏ると、2 人がそのカテゴリで一致する確率は偶然でも高くなります。そのため一致率が高く見えても、偶然一致を引いた κ は中程度に留まることがあります。
分類評価ページとは別物です
片方が予測、もう片方が正解なら 混同行列 を使います。このページは、両側が評価者で「偶然を超えてどれだけ一致しているか」を見るための一致度分析です。
よくある質問
なぜ一致率だけでは不十分なのですか?
一致率は、どの一致も同じ重みで数えます。カテゴリの偏りが大きいと、偶然でも一致しやすくなるため、一致率だけでは実質的な一致の強さを読み違えることがあります。Cohen の κ はその偶然一致分を差し引いて評価します。
一致率が高いのに κ が低めになるのはなぜですか?
1 つのカテゴリが極端に多いと、偶然一致として期待される割合も大きくなります。そのため見た目の一致率が高くても、偶然一致を差し引いた κ は控えめになることがあります。
混同行列とはどう違いますか?
混同行列は通常、予測と正解を比べて分類性能を見るページです。Cohen の κ は 2 人の評価者や 2 回のラベリング結果が、偶然を超えてどれだけ一致しているかを見る一致度分析です。
weighted kappa に対応していますか?
いいえ。初版は名義尺度カテゴリに対する非加重の Cohen の κ と、評価者 2 人に限定しています。
関連
コメント(任意)
読み込み負荷を下げるため、コメントは必要なときだけ読み込みます。