k近傍法入門 — 似ているデータから答えを導くシンプルな手法 | Qast ブログ

k近傍法（k-Nearest Neighbors, k-NN）は、機械学習の中で最も直感的な分類アルゴリズムの一つです。新しいデータを分類するとき、学習データの中から最も「似ている」k 個のデータを探し、その多数派のクラスを予測結果とします。「類は友を呼ぶ」という考え方をそのままアルゴリズムにしたものです。

距離の測り方と k の選び方

k近傍法で重要なのは「似ている」をどう測るかです。最もよく使われるのはユークリッド距離（直線距離）ですが、データの特性に応じてマンハッタン距離やミンコフスキー距離なども使われます。また、k の値（何個の近傍を参照するか）も精度に大きく影響します。k が小さすぎるとノイズに敏感になり、大きすぎると異なるクラスのデータまで参照してしまいます。一般的には奇数（3, 5, 7 など）を選び、交差検証で最適な値を探します。

メリットとデメリット

k近傍法の最大のメリットは、そのシンプルさです。学習フェーズでモデルを構築する必要がなく（「怠惰学習」とも呼ばれます）、新しいデータがすぐに反映されます。決定境界が複雑な形状でも柔軟に対応できます。一方で、データ件数が増えるとすべてのデータとの距離を計算する必要があるため、推論が遅くなるのがデメリットです。また、特徴量のスケール（尺度）に敏感なため、事前に標準化などの前処理が重要になります。

Qast では特徴量のスケーリングを含む前処理を自動で行うため、k近傍法も適切な条件で学習されます。データ件数が少なく、複雑な決定境界を持つデータでは、k近傍法が意外な好成績を出すことがあります。

k近傍法入門 — 似ているデータから答えを導くシンプルな手法

距離の測り方と k の選び方

メリットとデメリット

関連記事

Qastが使う分類アルゴリズム — 手法の特徴と選び方ガイド

Qast を導入してみませんか？