Accuracy(正解率)は、分類モデルの性能を評価するもっとも基本的な指標です。「全データのうち、正しく分類できた割合」を示します。直感的でわかりやすい反面、データの偏りがあると実態と乖離した数値になる落とし穴があります。この記事では Accuracy の計算式から限界、そして代替手段まで詳しく解説します。
Accuracy とは何か
Accuracy は (TP + TN) / (TP + TN + FP + FN) で計算されます。TP は真陽性、TN は真陰性、FP は偽陽性、FN は偽陰性です。つまり「正しく予測したサンプル数 ÷ 全サンプル数」です。値は 0〜1(または 0%〜100%)で、1 に近いほど良いモデルです。
具体例で理解する — スパムフィルター
100通のメールのうち 90通が正常、10通がスパムだとします。モデルが「すべて正常」と予測した場合、90通は正解なので Accuracy は 90% です。一見高い値ですが、スパムを 1通も検出できていません。これが Accuracy の最大の罠です。
Accuracy が有効なケース
Accuracy が信頼できるのは、クラスの比率がほぼ均等なデータです。例えば、犬と猫の画像分類で両クラスがほぼ同数の場合、Accuracy はモデルの実力を正確に反映します。また、すべてのクラスの誤分類コストが等しい場合も Accuracy が適切です。
Accuracy の落とし穴:不均衡データ
製造業の不良品検出を考えましょう。不良品率が 1% の場合、すべてを「良品」と予測するだけで Accuracy は 99% になります。しかし不良品を 1つも検出できないモデルは実用上無価値です。不均衡データでは Accuracy は「多数派に乗っかるだけ」の指標になりがちです。
Balanced Accuracy — 不均衡への対策
Balanced Accuracy は各クラスの Recall(再現率)を算出し、その平均を取った指標です。先ほどの不良品検出の例では、良品の Recall = 100%、不良品の Recall = 0% なので、Balanced Accuracy = 50% となり、モデルが役に立たないことを正しく反映します。
Top-k Accuracy — 多クラス分類での応用
Top-k Accuracy は、モデルが出力した確率上位 k 個のクラスに正解が含まれていれば正解とみなす指標です。例えば画像分類で 1000 クラスある場合、Top-5 Accuracy は「上位 5 候補に正解が入っているか」を評価します。クラス数が多い場合に実用的な基準として広く使われます。
Accuracy と他の指標の関係
Accuracy はシンプルですが万能ではありません。不均衡データでは F1 スコアが Precision と Recall のバランスを評価し、AUC-ROC は閾値に依存しない総合的な分類能力を示します。Accuracy は「まず最初に確認する指標」として有用ですが、必ず他の指標と併用して多角的に評価しましょう。
Qast のリーダーボードでの確認方法
Qast のリーダーボードでは、分類タスクの場合に Accuracy が標準で表示されます。カラムヘッダーをクリックするとソートでき、他の指標(F1、AUC-ROC、Precision、Recall)と並べて比較できます。不均衡データを検出した場合は F1 がデフォルトソートになるため、Accuracy だけで判断するリスクを自動的に軽減します。
クラスの比率を必ず確認しましょう。偏りがあれば F1 や AUC-ROC を優先し、Accuracy は参考値として扱うのがベストプラクティスです。




