決定木は、データを「もし年齢が30歳以上なら → もし年収が500万円以上なら → …」のように、条件分岐(if-then ルール)で次々と分けていく分類手法です。結果がツリー(木)構造で表現されるため、プログラミングの知識がなくても直感的に理解できるのが最大の特徴です。
ジニ不純度と情報利得 — 最適な分割を見つける基準
決定木がデータを分割するとき、「どの特徴量で、どの値を基準に分ければ最も効率よく分類できるか」を自動で判断します。その基準となるのがジニ不純度(Gini Impurity)と情報利得(Information Gain)です。ジニ不純度は「そのグループにどれだけ異なるクラスが混ざっているか」を示す指標で、これが小さくなるように分割を繰り返します。情報利得はエントロピー(情報の乱雑さ)の減少量で、分割によってどれだけ情報が整理されたかを測ります。
メリットとデメリット
決定木の最大のメリットは解釈のしやすさです。ツリーをたどるだけで「なぜその予測になったか」が明確にわかります。また、数値データとカテゴリデータの両方を扱え、前処理もほとんど不要です。一方、デメリットとして過学習しやすい(学習データにフィットしすぎて未知のデータへの精度が落ちる)ことが挙げられます。この弱点を克服するために生まれたのが、ランダムフォレストなどのアンサンブル手法です。
決定木は単体で使うよりも、ランダムフォレストや XGBoost のような「決定木を多数組み合わせたアンサンブル手法」のベースとして活躍します。決定木の仕組みを理解しておくと、これらの高度な手法の理解もスムーズになります。

