Pearsonの相関係数(ピアソンの積率相関係数)は、2つの数値変数の間にどれだけ強い線形関係があるかを測定する指標です。値は -1 から +1 の範囲をとり、+1 に近いほど強い正の線形関係(一方が増えるともう一方も増える)、-1 に近いほど強い負の線形関係(一方が増えるともう一方が減る)を示します。0 に近い場合は線形関係がないことを意味します。
線形関係のみを捉える
Pearsonの相関係数が測るのは「線形関係」に限定されます。例えば、U字型の関係(年齢と幸福度の関係など)がある場合、Pearsonの相関係数は0に近くなり「関連がない」と誤解される可能性があります。また、正規分布に従うデータに対して最も正確に機能し、外れ値があると大きく影響を受けます。非線形な関係やランクベースの関係を捉えたい場合は、Spearmanの順位相関係数が適しています。
相関と因果は別物
統計学で最も重要な注意事項の一つが「相関は因果を意味しない」ということです。例えば、アイスクリームの売上と水難事故件数に強い正の相関があっても、アイスクリームが水難事故を引き起こすわけではありません(共通の原因である「気温」が両方に影響しています)。相関係数はあくまで2変数間の関連の強さを示す指標であり、因果関係の証明には実験やドメイン知識が必要です。
相関係数の目安
一般的な目安として、絶対値が0.7以上で「強い相関」、0.4〜0.7で「中程度の相関」、0.2〜0.4で「弱い相関」、0.2未満で「ほぼ無相関」と解釈されます。ただし、この基準は分野によって異なります。自然科学では0.8以上を「強い」とすることが多く、社会科学では0.5でも「強い」と見なされることがあります。
Qast の EDA 機能では、数値変数間の相関行列を自動生成し、Pearsonの相関係数をヒートマップで可視化します。強い相関を持つ特徴量ペアは多重共線性の原因となるため、モデル構築前のチェックに重要です。

