ランダムフォレストは、その名の通り「ランダムに作られた決定木の森」です。データのサブセットから多数の決定木をランダムに生成し、それぞれの木の予測結果を多数決で統合して最終的な分類を行います。このようにモデルを複数組み合わせる手法を「アンサンブル学習」と呼びます。
バギング — ランダム性で多様性を確保する
ランダムフォレストでは「バギング(Bootstrap Aggregating)」という手法を使います。元のデータからランダムに復元抽出(同じデータが複数回選ばれることもある)してサブセットを作り、それぞれのサブセットで独立に決定木を学習します。さらに、各分岐点で使用する特徴量もランダムに選択することで、木どうしの多様性を高めます。この多様性こそが、個々の木の弱点を打ち消し合い、全体として安定した予測を実現する鍵です。
過学習に強い理由
単体の決定木はデータのノイズまで学習してしまい過学習しやすいのが弱点でした。ランダムフォレストでは、それぞれの木が異なるデータ・異なる特徴量で学習するため、個々の木の偏りが多数決によって平均化されます。結果として、未知のデータに対しても安定した精度を発揮します。パラメータのチューニングが比較的少なく済むため、「まず試すならランダムフォレスト」と言われるほど汎用的な手法です。
Qast ではランダムフォレストを含むアンサンブル手法が自動で学習されます。リーダーボードで他の手法と精度を比較し、安定性と精度のバランスが良いモデルを選びましょう。

