分類モデルの評価は「Accuracy が高い=良いモデル」とは限りません。クラスの偏りがあるデータ、誤分類のコストが非対称なタスクでは、Accuracy だけでなく複数の指標を組み合わせて評価する必要があります。この記事では、分類モデルの主要な評価指標とその使い分けを体系的に解説します。
混同行列(Confusion Matrix)— すべての指標の基盤
混同行列は、モデルの予測結果を「実際のクラス × 予測したクラス」の2×2(二値分類の場合)のマトリクスで整理したものです。TP(真陽性)、FP(偽陽性)、TN(真陰性)、FN(偽陰性)の4つのセルから、以降の全指標が導出されます。
- 1
TP(True Positive / 真陽性)
実際に陽性で、モデルも陽性と予測した件数。正しく陽性を検出したケースです。
- 2
FP(False Positive / 偽陽性)
実際は陰性なのに、モデルが陽性と予測した件数。「誤検出」とも呼ばれます。
- 3
TN(True Negative / 真陰性)
実際に陰性で、モデルも陰性と予測した件数。正しく陰性を識別したケースです。
- 4
FN(False Negative / 偽陰性)
実際は陽性なのに、モデルが陰性と予測した件数。「見逃し」とも呼ばれます。
混同行列を見る際は、対角線上(TP と TN)が大きく、非対角線上(FP と FN)が小さいほど良いモデルです。どちらの誤分類がビジネス上より深刻かを考えることが、適切な評価指標の選択につながります。
Accuracy(正解率)
全サンプルのうち、正しく分類できた割合です。計算式は (TP + TN) / (TP + FP + TN + FN) で、最も直感的な指標です。ただし、クラスの偏りがあるデータでは誤解を招きます。例えば、不正取引が全体の0.1%のデータでは、すべてを「正常」と予測するだけで Accuracy 99.9% になってしまいます。
Precision(適合率)— 陽性予測の信頼性
モデルが陽性と予測したもののうち、実際に陽性だった割合です。TP / (TP + FP) で計算されます。「陽性と予測したときの信頼性」を示し、偽陽性のコストが高い場面(例:スパム判定でメールを誤って迷惑メールフォルダに入れてしまう)で重要です。
Recall(再現率)— 陽性の検出力
実際に陽性であるもののうち、モデルが正しく陽性と予測できた割合です。TP / (TP + FN) で計算されます。「陽性をどれだけ漏れなく検出できるか」を示し、偽陰性のコストが高い場面(例:がん検診での見逃し)で重要です。Sensitivity(感度)とも呼ばれます。
F1 スコア — Precision と Recall のバランス
Precision と Recall の調和平均で、両者のバランスを1つの数値で表現します。2 × Precision × Recall / (Precision + Recall) で計算されます。どちらか一方が極端に低いと F1 スコアも低くなるため、Precision と Recall のトレードオフを考慮した総合指標として広く使われています。
- 1
F1 スコアが高い = Precision と Recall のバランスが良い
F1 = 0.90 は Precision ≈ Recall ≈ 0.90 の場合に達成されます。どちらかが 0.99 でも他方が 0.50 なら F1 は約 0.67 です。
- 2
Fβ スコア — 重み付きのバリエーション
β < 1 は Precision を重視、β > 1 は Recall を重視します。β = 2(F2スコア)は Recall を2倍重視し、見逃しを減らしたい場面に適しています。
AUC-ROC — 分類閾値に依存しない総合評価
ROC曲線は、分類閾値を0〜1で変化させたときの TPR(真陽性率)と FPR(偽陽性率)の関係をプロットした曲線です。AUC(Area Under the Curve)はこの曲線の下の面積で、0.5(ランダム)〜1.0(完全)の値を取ります。閾値に依存しないモデルの総合的な分類能力を評価でき、複数モデルの比較に適しています。
AUC-ROC はクラスの偏りが極端な場合(例:陽性が0.1%)に楽観的な評価を与える傾向があります。このような場合は、AUC-PR(Precision-Recall曲線の下の面積)の方が実態を正しく反映します。
Log Loss(対数損失)— 確率予測の品質を評価
Log Loss は、モデルが出力する確率の精度を評価する指標です。正解クラスに割り当てた確率が高いほど値が小さくなり、自信を持って誤分類した場合に大きなペナルティが課されます。確率予測をそのまま利用するケース(例:リスクスコアリング)で特に重要です。
Matthews 相関係数(MCC)— 偏りに頑健な単一指標
MCC は混同行列の4つの値すべてを使って計算される相関係数で、-1(完全な逆分類)〜 0(ランダム)〜 +1(完全な分類)の値を取ります。クラスの偏りに対して他の指標より頑健であり、偏りのあるデータでの単一指標として近年注目されています。
タスクに応じた指標の選び方
- 1
クラスが均等 → Accuracy + F1
クラスの偏りが少ない場合は Accuracy で概要を掴み、F1 で Precision / Recall のバランスを確認します。
- 2
クラスが偏り → F1 + AUC-PR + MCC
少数クラスの検出が重要な場合は、Accuracy を避け F1、AUC-PR、MCC を重視します。
- 3
見逃しが致命的 → Recall + F2
がん検診、不正検出など「陽性の見逃し」が許されない場合は Recall と F2 スコアを最優先します。
- 4
誤検出が致命的 → Precision
スパム判定など「正常なものを誤って弾く」コストが高い場合は Precision を重視します。
- 5
確率予測を利用 → Log Loss + AUC-ROC
リスクスコアや確率を直接活用する場合は、Log Loss で確率の品質を、AUC-ROC で閾値非依存の分類力を評価します。
Qast での評価指標の活用
Qast のリーダーボードでは、Accuracy、F1、AUC-ROC、Precision、Recall、Log Loss、MCC の全指標を一覧で確認できます。カラムヘッダーをクリックして任意の指標でソートでき、タスクの特性に応じた最適なモデル選択をサポートします。
初めてリーダーボードを見る場合は、まず F1 スコアでソートし、上位3〜5モデルの Precision と Recall のバランスを確認するのがおすすめです。その後、AUC-ROC で閾値に対するロバスト性も確認しましょう。


