赵走x博客
网站访问量:151928
首页
书籍
软件
工具
古诗词
搜索
登录
深入浅出Python机器学习:31、自动特征选择
深入浅出Python机器学习:30、数据“升维”
深入浅出Python机器学习:29、数据表达
深入浅出Python机器学习:28、聚类算法
深入浅出Python机器学习:27、特征提取
深入浅出Python机器学习:26、数据降维
深入浅出Python机器学习:25、数据预处理
深入浅出Python机器学习:24、神经网络实例一一手写识别
深入浅出Python机器学习:23、神经网络的原理及使用
深入浅出Python机器学习:22、神经网络的前世今生
深入浅出Python机器学习:21、SVM 实例一一波士顿房价回归分析
深入浅出Python机器学习:20、SVM 的核函数与参数选择
深入浅出Python机器学习:19、支持向量机SVM 基本概念
深入浅出Python机器学习:18、随机森林实例一一要不要和中目亲对象进一步发展
深入浅出Python机器学习:17、随机森林
深入浅出Python机器学习:16、决策树
深入浅出Python机器学习:15、朴素贝叶斯实战一一判断肿瘤是良性还是恶性
深入浅出Python机器学习:14、朴素贝叶斯算法的不同方法
深入浅出Python机器学习:13、朴素贝叶斯基本概念
深入浅出Python机器学习:12、使用L1 正则化的线性模型一一套索回归
深入浅出Python机器学习:11、使用L2 正则化的线性模型一一岭回归
深入浅出Python机器学习:10、最基本的线性模型一一线性回归
深入浅出Python机器学习:9、线性模型的墓本概念
深入浅出Python机器学习:8、K 最近邻算法项目实战一一酒的分类
深入浅出Python机器学习:7、K最近邻算法用于回归分析
深入浅出Python机器学习:6、K最近邻算法处理多元分类任务
深入浅出Python机器学习:5、k最近邻算法在分类任务中的应用
深入浅出Python机器学习:4、K 最近邻算法的原理
深入浅出Python机器学习:3、一些必需库的安装及功能简介
深入浅出Python机器学习:2、基于python i吾言的环境配置
深入浅出Python机器学习:1、概述
人脸数据集加载faces = fetch_lfw_people()报错
31、直方图
74、插件开发:Android端API实现
Python3之socket编程--3:基于UDP的套接字
15、使用 jQuery 处理 Ajax 请求
深入浅出Python机器学习:4、K 最近邻算法的原理
资源编号:75858
人工智能
深入浅出Python机器学习
热度:90
K 最近邻算法一-近朱者赤,近墨者黑
> K 最近邻算法一-近朱者赤,近墨者黑 眼看没几天,就要到七夕佳节了,小C 打算筹备个烛光晚餐,和女朋友浪漫一下。 说到烛光晚餐,自然是得有瓶好酒助兴,可惜小C 同学对酒实在没有什么研究,连最基 本的酒的分类也说不清楚,看来又得求助机器学习了。 本章我们将介绍K 最近邻算法( K-Nearest Neighbors, KNN )的原理和它的基本应用,并用它来帮助小C 对酒进行分类。 本章主要涉及的知识点有: 1、 K 最近邻算法的原理 2、 K 最近邻算法在分类任务中的应用 3、 K 最近邻算法在回归分析中的应用 4、 使用K 最近邻算法对酒的分类进行建模 K 最近邻算法的原理,正如我们本章标题所说一一近朱者赤, 近墨者黑。想象一下,我们的数据集里面有一半是“朱”(图中浅色的点〉,另一半是“ 墨”(图中深色的点)。 现在有了一个新的数据点,颜色未知,我们怎么判断它属于哪一个分类呢?如图3 - 1 所示。  对于K 最近邻算法来说,这个问题就很简单:新数据点离谁最近,就和谁属于同一类,从图3-1 中我们可以看出,新数据点距离它8 点钟方向的浅色数据点最近,那么理所应当地,这个新数据点应该属于浅色分类了,如图3 -2 所示。  看起来, K 最近邻算法真是够简单的,这么轻松就完成了分类的工作。别急,我们还没说完。刚才只是举的最简单的例子,选的最近邻数等于1 。但如果我们在模型训练过程中让最近邻数等于1 的话, 那么非常可能会犯了“ 一叶障目,不见泰山 "的错误,试想一下,万一和新数据点最近的数据恰好是一个测定错误的点呢? 所以需要我们增加最近邻的数量,例如把最近邻数增加到3 ,然后让新数据点的分类和3 个当中最多的数据点所处的分类保持一致,如图3-3 所示。  图3 -3 最近邻数等于3 时的分类 从图3 -3 中我们看到, 当我们令新数据点的最近邻数等于3 的时-候, 也就是找出离新数据点最近的3 个点,这时我们发现与新数据点距离最近的3 个点中,有2 个是深色,而只有1 个是浅色。这样一来, K 最近邻算法就会把新数据点放进深色的分类当中。 以上就是K 最近邻算法在分类任务中的基本原理, 实际上K 这个字母的含义就是最近邻的个数。在scikit-learn 中, K 最近邻算法的K 值是通过n_neighbors 参数来调节的,默认值是5 。 >⚠️:K 最近算法也可以用于回归,原理和其用于分类是相同的。当我们使用K 最近邻回归计算某个数据点的预测值时,模型会选择离该数据点最近的若干个训练数据集中的点,并且将它们的y 值取平均值,并把该平均值作为新数据点的预测值。