活用テクニック2026年3月8日

k近傍法入門 — 似ているデータから答えを導くシンプルな手法

k近傍法(k-NN)の仕組みをやさしく解説します。インスタンスベース学習の考え方、距離の計算方法、k の選び方のコツを学びましょう。

k近傍法の概念図

k近傍法(k-Nearest Neighbors, k-NN)は、機械学習の中で最も直感的な分類アルゴリズムの一つです。新しいデータを分類するとき、学習データの中から最も「似ている」k 個のデータを探し、その多数派のクラスを予測結果とします。「類は友を呼ぶ」という考え方をそのままアルゴリズムにしたものです。

距離の測り方と k の選び方

k近傍法で重要なのは「似ている」をどう測るかです。最もよく使われるのはユークリッド距離(直線距離)ですが、データの特性に応じてマンハッタン距離やミンコフスキー距離なども使われます。また、k の値(何個の近傍を参照するか)も精度に大きく影響します。k が小さすぎるとノイズに敏感になり、大きすぎると異なるクラスのデータまで参照してしまいます。一般的には奇数(3, 5, 7 など)を選び、交差検証で最適な値を探します。

メリットとデメリット

k近傍法の最大のメリットは、そのシンプルさです。学習フェーズでモデルを構築する必要がなく(「怠惰学習」とも呼ばれます)、新しいデータがすぐに反映されます。決定境界が複雑な形状でも柔軟に対応できます。一方で、データ件数が増えるとすべてのデータとの距離を計算する必要があるため、推論が遅くなるのがデメリットです。また、特徴量のスケール(尺度)に敏感なため、事前に標準化などの前処理が重要になります。

Qast では特徴量のスケーリングを含む前処理を自動で行うため、k近傍法も適切な条件で学習されます。データ件数が少なく、複雑な決定境界を持つデータでは、k近傍法が意外な好成績を出すことがあります。

Qast を導入してみませんか?

導入のご相談やデモのご依頼は、お気軽にお問い合わせください。