赵走x博客 - 开发者的网上家园

深入浅出Python机器学习：6、K最近邻算法处理多元分类任务

资源编号:75860 人工智能深入浅出Python机器学习热度：156

接下来，我们要先生成多元分类任务所使用的数据集，为了让难度足够大，这次我们通过修改make_blobs 的centers 参数，把数据类型的数量增加到5 个，同时修改n_samlpes 参数，把样本量也增加到500 个

接下来，我们要先生成多元分类任务所使用的数据集，为了让难度足够大，这次我们通过修改make_blobs 的centers 参数，把数据类型的数量增加到5 个，同时修改n_samlpes 参数， 把样本量也增加到500 个，输入代码如下：

```
# 导人数据集生成器
from sklearn.datasets import make_blobs
import matplotlib.pylab as plt

# 生成样本数为500 ，分类数为5 的数据集
data2 = make_blobs(n_samples=500, centers=5, random_state=8)
X2, y2 = data2

# 用散点图将数据集进行可视化
plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap=plt.cm.spring, edgecolor='k')
plt.show()

```

运行代码，会得到结果如图所示的结果。
![image.png](https://img.hacpai.com/file/2019/09/image-0db67c38.png)

［结果分析］ 从图中我们可以看到，新的数据集的分类数量变成了5 个，而其中有两类数据还有一些重合（图片中心位置的点〉， 这下难度提高了不少。

让我们再次用K 最近邻算法建立模型来拟合这些数据，输入代码如下：

```
# 导人数据集生成器
from sklearn.datasets import make_blobs
import matplotlib.pylab as plt

from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import matplotlib as mpl

# 生成样本数为500 ，分类数为5 的数据集
data2 = make_blobs(n_samples=500, centers=5, random_state=8)
X2, y2 = data2

clf = KNeighborsClassifier()
clf.fit(X2, y2)

# 下面的代码用于画图
x_min, x_max = X2[:, 0].min() - 1, X2[:, 0].max() + 1
y_min, y_max = X2[:, 1].min() - 1, X2[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
z = Z.reshape(xx.shape)
cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#448ced', '#6600FF', '#FF00FF'])
plt.pcolormesh(xx, yy, z, cmap=cm_light)
# 用散点图将数据集进行可视化
plt.scatter(X2[:, 0], X2[:, 1], c=y2, cmap=plt.cm.spring, edgecolor='k')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("Classifier : KNN")
plt.show()

```
运行结果：
![image.png](https://img.hacpai.com/file/2019/09/image-2c0a7983.png)

【结果分析】 从图中我们可以看到， K 最近邻算法仍然可以把大部分数据点放置于正确的分类中，但有一小部分数据还是进入了错误的分类中，这些分类错误的数据点基本都是互相重合的位于图像中心位置的数据点。

那么模型的正确率究竟有多高呢？我们用下面的代码来进行一下评分：

```
print(' 代码运行结果')
print('==============================')
print('模型正确率{:.2f}'.format(clf.score(X2, y2)))
print('==============================')
```

运行结果：
```
 代码运行结果
==============================
模型正确率0.96
==============================
```	
【结果分析】 看来虽然我们故意刁难了K 最近邻算法一下，但它仍然能够将96 % 的数据点放进正确的分类中， 这个结果可以说还是相当不错的。

接下来，我们再试试使用K 最近邻算法来进行回归分析， 看看结果如何。