Log Loss(対数損失)は、モデルが出力する確率の「質」を評価する指標です。単に正解か不正解かだけでなく、「どれだけ自信を持って正しい予測をしたか」を評価します。確率をそのまま意思決定に使うユースケース(リスクスコアリング、保険料算出、入札最適化など)で特に重要です。
Log Loss とは何か
Log Loss は -[y × log(p) + (1 - y) × log(1 - p)] で計算されます(二値分類の場合)。y は実際のラベル(0 or 1)、p はモデルが出力した陽性確率です。正解クラスに高い確率を割り当てるほど Log Loss は小さくなり、自信を持って間違えると大きなペナルティが課されます。
なぜ確率の「質」が重要か
リスクスコアリングでは「この顧客が離脱する確率は 72%」のように確率値そのものを使います。保険料算出では事故確率に基づいて保険料を計算し、広告入札では購入確率に基づいて入札額を決定します。これらのシーンでは確率が正確でないと、意思決定そのものが歪みます。
具体例: 2つのモデルの比較
実際にラベルが陽性のサンプルに対して、モデルA は確率 0.95 を出力し、モデルB は確率 0.55 を出力したとします。両方とも「陽性」と判定するため Accuracy では同じです。しかし Log Loss ではモデルA の方が圧倒的に低い(良い)値となり、確率予測の質の差を正しく評価できます。
Log Loss と Cross-Entropy の関係
二値分類における Log Loss は、Binary Cross-Entropy と数学的に同一です。深層学習の損失関数として広く使われる Cross-Entropy Loss は、まさにこの Log Loss を最小化する学習を行います。つまり、Log Loss は学習時の損失関数と評価時の指標が一致する、理論的に整合性の高い指標です。
完璧な予測とランダム予測の Log Loss
完璧な予測(正解クラスに確率 1.0 を割り当てる)の Log Loss は 0 です。一方、ランダム予測(常に確率 0.5 を出力する)の Log Loss は ln(2) ≈ 0.693 です。この 0〜0.693 の範囲がベースラインとなり、モデルの Log Loss がどの位置にあるかで性能を判断できます。
Log Loss の性質 — 確信度と間違いのペナルティ
Log Loss の重要な性質は、確信度が高い間違いに対するペナルティが非線形に増大することです。確率 0.999 で誤分類した場合のペナルティは、確率 0.51 で誤分類した場合の約 100 倍になります。これにより、モデルは「自信がないときは控えめな確率を出す」ことが奨励されます。
キャリブレーション — 確率の「正しさ」
予測確率 80% のサンプルのうち、実際に 80% が正例であれば、そのモデルは「よくキャリブレーションされている」と言います。Log Loss が低くてもキャリブレーションが悪い場合があり、キャリブレーション曲線(Reliability Diagram)で確率の正しさを視覚的に確認することが重要です。
Brier Score との比較
Brier Score は (p - y)² の平均で計算される、もう 1 つの確率評価指標です。Log Loss に比べて外れ値(極端な確率での誤分類)への感度が低く、よりロバストです。ただし、Log Loss の方が確率のキャリブレーションに対する感度が高く、理論的な裏付けも豊富なため、より広く使われています。
多クラスでの Log Loss
多クラス分類では、カテゴリカル Cross-Entropy として一般化されます。各サンプルについて、正解クラスに割り当てた確率の対数を取り、その平均の負値が Log Loss です。Qast のリーダーボードでは、多クラスの場合もこの方式で計算された Log Loss が表示されます。
Qast での確率キャリブレーションの確認
Qast のモデル詳細ページでは Log Loss の値をリーダーボードで確認できます。確率ベースの意思決定を行うタスクでは、Log Loss でソートして上位モデルを選択するのが効果的です。
確率をそのまま意思決定に使うなら、Log Loss の値に加えてキャリブレーション曲線も確認しましょう。Log Loss が低くてもキャリブレーションが悪いと、確率の絶対値が信頼できない可能性があります。



