XGBoost(eXtreme Gradient Boosting)は、勾配ブースティングと呼ばれる手法を高速・高精度に実装したアルゴリズムです。データ分析コンペティション「Kaggle」で数多くの優勝ソリューションに採用されており、構造化データ(テーブルデータ)における最強クラスの手法として広く知られています。
勾配ブースティングの仕組み
勾配ブースティングは、弱い決定木を「逐次的に」追加していく手法です。最初の木が予測した結果と正解のずれ(残差)を計算し、次の木はそのずれを修正するように学習します。これを何百回、何千回と繰り返すことで、徐々に精度を高めていきます。ランダムフォレストが木を「並列」に作るのに対し、ブースティングは「直列」に積み上げていくイメージです。
正則化 — 過学習を抑える工夫
XGBoost が他のブースティング手法と異なるのは、強力な正則化(ペナルティ)機能を備えている点です。木の複雑さに対するペナルティや、学習率(各木の影響の大きさ)の制御により、モデルが学習データに過度にフィットすることを防ぎます。さらに、特徴量のサブサンプリングやデータのサブサンプリングも行えるため、汎化性能(未知データへの精度)が非常に高くなります。
Qast では XGBoost のハイパーパラメータも自動で最適化されます。手動チューニングの手間なく、XGBoost の高精度な予測を活用できます。

