サポートベクターマシン(SVM)は、データを分類する「最適な境界線」を見つけるアルゴリズムです。「最適」とは、2つのクラスの間に最も余裕(マージン)のある境界線を引くことを意味します。このマージン最大化の考え方により、未知のデータに対しても安定した分類性能を発揮します。
カーネルトリック — 直線では分けられないデータにも対応
現実のデータは直線(や平面)ではきれいに分けられないことが多いです。SVM はこの問題を「カーネルトリック」で解決します。カーネルトリックとは、元のデータをより高い次元の空間に写像し、その空間で直線的な境界を引く技術です。例えば、2次元では円形に分布するデータも、3次元に写像すれば平面で分離できるようになります。代表的なカーネルには、RBF(ガウシアン)カーネルや多項式カーネルがあります。
SVM の得意な場面
SVM は特徴量の数がデータの件数に対して多い「高次元データ」で特に効果を発揮します。テキスト分類(スパム判定、感情分析など)や遺伝子データ解析など、特徴量が数千〜数万に及ぶ場面で広く使われています。一方で、データ件数が非常に多い場合は学習に時間がかかるという特徴があります。
Qast では SVM を含む複数のアルゴリズムを自動で比較します。SVM は特徴量が多く、データ件数が中程度の場面で高い精度を示すことが多いので、リーダーボードでの結果に注目してみましょう。

