Shapiro-Wilk検定は、データが正規分布に従っているかどうかを判定するための統計的検定です。1965年にShapiroとWilkによって提案され、特に小〜中規模のサンプルサイズ(5,000件未満)において最も検出力が高い正規性検定として広く認められています。
仕組み — 順序統計量と正規分布の比較
Shapiro-Wilk検定は、データを小さい順に並べた「順序統計量」と、正規分布から期待される順序統計量を比較します。もしデータが正規分布に従っていれば、この2つはよく一致するはずです。検定統計量 W は 0〜1 の値をとり、1 に近いほど正規分布に近いことを示します。W が小さく、p値が有意水準(通常 0.05)を下回れば「正規分布ではない」と判断します。
小〜中規模サンプルで最強の検出力
Shapiro-Wilk検定は、他の正規性検定(Kolmogorov-Smirnov検定やAnderson-Darling検定など)と比較して、小〜中規模のサンプルにおいて非正規分布を検出する能力が最も高いことが多くの研究で示されています。ただし、サンプルサイズが非常に大きい場合(5,000件以上)、わずかな正規分布からのズレでも「有意」と判定されやすくなる点に注意が必要です。
Qast の EDA 機能では、数値カラムに対して自動的に Shapiro-Wilk検定を実行し、正規性の判定結果を表示します。p値が 0.05 未満なら「正規分布ではない」と解釈し、後続のt検定やANOVAの前提条件チェックに活用できます。

