赵走x博客 - 开发者的网上家园

深入浅出Python机器学习：4、K 最近邻算法的原理

资源编号:75858 人工智能深入浅出Python机器学习热度：90

K 最近邻算法一－近朱者赤，近墨者黑

> K 最近邻算法一－近朱者赤，近墨者黑
眼看没几天，就要到七夕佳节了，小C 打算筹备个烛光晚餐，和女朋友浪漫一下。
说到烛光晚餐，自然是得有瓶好酒助兴，可惜小C 同学对酒实在没有什么研究，连最基
本的酒的分类也说不清楚，看来又得求助机器学习了。
本章我们将介绍K 最近邻算法（ K-Nearest Neighbors, KNN ）的原理和它的基本应用，并用它来帮助小C 对酒进行分类。
本章主要涉及的知识点有：
1、 K 最近邻算法的原理
2、 K 最近邻算法在分类任务中的应用
3、 K 最近邻算法在回归分析中的应用
4、 使用K 最近邻算法对酒的分类进行建模

K 最近邻算法的原理，正如我们本章标题所说一一近朱者赤， 近墨者黑。想象一下，我们的数据集里面有一半是“朱”（图中浅色的点〉，另一半是“ 墨”（图中深色的点）。

现在有了一个新的数据点，颜色未知，我们怎么判断它属于哪一个分类呢？如图3 - 1 所示。

![image.png](https://img.hacpai.com/file/2019/09/image-9f2c9768.png)

对于K 最近邻算法来说，这个问题就很简单：新数据点离谁最近，就和谁属于同一类，从图3-1 中我们可以看出，新数据点距离它8 点钟方向的浅色数据点最近，那么理所应当地，这个新数据点应该属于浅色分类了，如图3 -2 所示。

![image.png](https://img.hacpai.com/file/2019/09/image-46a1e9f0.png)

看起来， K 最近邻算法真是够简单的，这么轻松就完成了分类的工作。别急，我们还没说完。刚才只是举的最简单的例子，选的最近邻数等于1 。但如果我们在模型训练过程中让最近邻数等于1 的话， 那么非常可能会犯了“ 一叶障目，不见泰山 ＂的错误，试想一下，万一和新数据点最近的数据恰好是一个测定错误的点呢？

所以需要我们增加最近邻的数量，例如把最近邻数增加到3 ，然后让新数据点的分类和3 个当中最多的数据点所处的分类保持一致，如图3-3 所示。

![image.png](https://img.hacpai.com/file/2019/09/image-ca306630.png)

图3 -3 最近邻数等于3 时的分类

从图3 -3 中我们看到， 当我们令新数据点的最近邻数等于3 的时－候， 也就是找出离新数据点最近的3 个点，这时我们发现与新数据点距离最近的3 个点中，有2 个是深色，而只有1 个是浅色。这样一来， K 最近邻算法就会把新数据点放进深色的分类当中。

以上就是K 最近邻算法在分类任务中的基本原理， 实际上K 这个字母的含义就是最近邻的个数。在scikit-learn 中， K 最近邻算法的K 值是通过n_neighbors 参数来调节的，默认值是5 。

>⚠️：K 最近算法也可以用于回归，原理和其用于分类是相同的。当我们使用K 最近邻回归计算某个数据点的预测值时，模型会选择离该数据点最近的若干个训练数据集中的点，并且将它们的y 值取平均值，并把该平均值作为新数据点的预测值。