回帰モデルは「数値を予測する」タスクですが、予測値がどれだけ正確かを判断するには適切な評価指標を理解する必要があります。RMSE だけを見ていると、意外な落とし穴にはまることも。この記事では、Qast のリーダーボードに表示される回帰指標の意味と、データの性質に応じた使い分けを解説します。
残差 — すべての回帰指標の出発点
回帰指標を理解するには、まず「残差(Residual)」の概念を知る必要があります。残差とは、実測値と予測値の差(実測値 − 予測値)のことです。すべての回帰指標は、この残差をさまざまな方法で集約したものです。残差がゼロに近いほど予測が正確であり、残差の分布を分析することでモデルの傾向やクセが見えてきます。
MAE(平均絶対誤差) — もっとも直感的な指標
MAE は、各データポイントの残差の絶対値を平均した指標です。「予測が平均的にどれだけずれているか」を表すため、もっとも解釈しやすい指標です。例えば MAE = 50万円 なら、「平均的に 50万円ずれる」と直接的に読み取れます。
MAE はすべての誤差を均等に扱うため、外れ値(極端に大きなズレ)に強いという特性があります。外れ値の影響を過度に受けたくない場合に適しています。
MSE(平均二乗誤差) — 大きな誤差を強く罰する
MSE は、各データポイントの残差を二乗してから平均した指標です。二乗するため、大きな誤差ほど強くペナルティがかかります。「大きく外すことが許されない」ユースケースに適しています。ただし、単位が元のデータの二乗になるため(例:円²)、直感的な解釈が難しいのがデメリットです。
RMSE(二乗平均平方根誤差) — MSE を元のスケールに戻す
RMSE は MSE の平方根を取った指標で、元のデータと同じ単位で解釈できます。MAE と同様に「予測がどれだけずれるか」を示しますが、大きな誤差に敏感な点が MAE と異なります。回帰タスクでもっとも広く使われる指標であり、Qast でもデフォルトのソート指標として採用しています。
- 1
RMSE と MAE の違い
RMSE は大きな誤差を強く罰し、MAE はすべての誤差を均等に扱います。RMSE ≥ MAE は常に成り立ち、両者の差が大きいほど外れ値的な大きな誤差が含まれていることを示します。
- 2
RMSE が MAE に近い場合
誤差が比較的均一に分布しており、大きな外れ値が少ないことを意味します。
- 3
RMSE が MAE よりかなり大きい場合
少数のデータポイントで大きな誤差が発生していることを意味します。外れ値の影響を確認しましょう。
RMSE と MAE を両方確認して、その差を見ることで外れ値の影響を把握できます。Qast のリーダーボードではどちらの指標も表示されるため、並べて比較するだけで判断できます。
MAPE(平均絶対パーセント誤差) — 割合で誤差を評価
MAPE は、各データポイントの誤差を実測値に対するパーセンテージで表し、その平均を取った指標です。「予測が平均的に何 % ずれるか」を示すため、異なるスケールのデータ間でモデルの精度を比較したい場合に便利です。例えば MAPE = 5% なら、「平均的に実測値の 5% 程度のずれ」と解釈できます。
ただし、実測値がゼロまたはゼロに近い場合、MAPE は極端に大きな値になる(ゼロ除算に近い状態)ため注意が必要です。そのようなデータでは MAE や RMSE の方が安定した評価ができます。
R²(決定係数) — モデルの「説明力」を測る
R² は、モデルがデータの変動をどれだけ説明できるかを 0〜1 で表す指標です。計算式は R² = 1 − (残差の分散 / 実測値の分散) で、「全データの平均値で予測するより、モデルがどれだけ改善しているか」を示します。
- 1
R² = 1.0
モデルがデータの変動を完全に説明している。実務上は過学習の可能性を疑うべき。
- 2
R² = 0.9 以上
データの変動の 90% 以上をモデルが説明できている。多くのタスクで優秀な水準。
- 3
R² = 0.5〜0.9
実用的なモデル。タスクの難易度や外部要因の多さによってはこの範囲で十分。
- 4
R² ≤ 0
平均値で予測するよりも悪い。モデルが全く機能しておらず、特徴量の見直しやデータの確認が必要。
R² の注意点として、特徴量を増やせば R² は必ず改善するか横ばいになります(悪化しない)。このため、不要な特徴量を大量に追加しても R² は上がってしまい、過学習を見抜けません。Qast ではホールドアウトデータでの R² を算出することで、この問題を回避しています。
Adjusted R²(自由度調整済み決定係数) — 特徴量の数を考慮
Adjusted R² は、R² を特徴量の数で補正した指標です。不要な特徴量が追加された場合にはペナルティがかかるため、R² よりも正確にモデルの「真の説明力」を評価できます。特徴量選択の際に R² と Adjusted R² を比較すると、「この特徴量を追加する価値があるか」を判断する材料になります。
スケールへの依存性 — 指標選択の重要なポイント
MAE、MSE、RMSE はデータのスケール(単位)に依存します。つまり、売上予測(万円単位)と気温予測(℃ 単位)の RMSE を直接比較しても意味がありません。異なるタスク間の比較には、スケールに依存しない R² や MAPE を使いましょう。
- 1
スケール依存の指標(MAE, RMSE, MSE)
同じタスク内のモデル比較に最適。「誤差が何円・何℃ ずれるか」という実務的な判断に直結します。
- 2
スケール非依存の指標(R², MAPE)
異なるタスク間の比較や、上司への報告など相対的な精度を伝える場面に適しています。
シーン別:どの指標を重視すべきか
- 1
大きな誤差を許容できないとき → RMSE
在庫予測や需要予測など、大きく外すとコストに直結するケース。大きな誤差に敏感な RMSE が適切です。
- 2
外れ値に頑健な評価がしたいとき → MAE
外れ値が含まれるデータや、「典型的な誤差」を知りたいケース。すべての誤差を均等に扱う MAE が安定します。
- 3
異なるスケールの比較 → MAPE or R²
異なるデータセット間や、ステークホルダーへの報告には、パーセンテージや 0〜1 のスコアで伝えられる指標が便利です。
- 4
モデルの説明力を評価 → R²
「データの変動をどれだけ捉えているか」を知りたいとき。特に、ベースラインからどれだけ改善したかの判断に有用です。
- 5
特徴量の取捨選択 → Adjusted R²
特徴量エンジニアリングの効果を検証する際、R² と Adjusted R² を比較して不要な特徴量を特定します。
よくある落とし穴
回帰指標を使う際に、初心者が陥りがちなミスをまとめます。
- 1
RMSE だけで判断する
RMSE が低くても R² が低い場合、モデルがデータの傾向を捉えられていない可能性があります。必ず複数の指標を確認しましょう。
- 2
異なるスケールの RMSE を比較する
売上予測(万円)と気温予測(℃)の RMSE を比較しても無意味です。スケール非依存の R² や MAPE で比較しましょう。
- 3
R² = 1.0 を目指す
R² が 1.0 に近すぎる場合は過学習を疑うべきです。訓練データとテストデータの R² を比較し、大きな差があれば過学習の兆候です。
- 4
MAPE を実測値がゼロに近いデータで使う
実測値がゼロ付近の場合、MAPE は極端に大きくなります。このようなデータでは MAE や RMSE を使いましょう。
Qast のリーダーボードでの活用
Qast のリーダーボードでは、回帰タスクの場合に RMSE、MAE、R²、MAPE が一覧表示されます。デフォルトでは RMSE の昇順(誤差が小さい順)でソートされますが、カラムヘッダーをクリックすれば任意の指標に切り替えられます。複数の指標を見比べて、ビジネスの文脈に合ったモデルを選定しましょう。
指標は「モデルの通知表」です。1 教科だけでなく、複数の科目を総合的に見ることで、モデルの本当の実力がわかります。RMSE・MAE・R² を三点セットで確認する習慣をつけましょう。


