全部标签

K 近邻

7 – 手写数字识别 KNN

1. 案例介绍 MNIST手写数字识别是计算机视觉领域中 "hello world"级别的数据集 1999年发布，成为分类算法基准测试的基础随着新的机器学习技术的出现，MNIST仍然是研究人员和学习者的可靠资源。本次案例中，我们的目标是从数万个手写图像的数据集中正确识别数字。 2. 数据介绍数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数…
K 近邻
- 39
- 0
ludaodao23年5月19日
6 – K 值选择问题

1. K取不同值时带来的影响举例：有两类不同的样本数据，分别用蓝颜色的小正方形和红色的小三角形表示，而图正中间有一个绿色的待判样本。问题：如何给这个绿色的圆分类？是判断为蓝色的小正方形还是红色的小三角形？方法：应用KNN找绿色的邻居，但一次性看多少个邻居呢（K取几合适）？解决方案： K=4，绿色圆圈最近的4个邻居，3红色和1个蓝，按少数服从多数，判定绿色样本与红色三角形属于同一类别 K=…
K 近邻
- 17
- 0
ludaodao23年5月19日
5 – 分类模型评估方法

1.数据集划分 1.1 为什么要划分数据集? 思考：我们有以下场景：将所有的数据都作为训练数据，训练出一个模型直接上线预测每当得到一个新的数据，则计算新数据到训练数据的距离，预测得到新数据的类别存在问题：上线之前，如何评估模型的好坏？模型使用所有数据训练，使用哪些数据来进行模型评估？结论：不能将所有数据集全部用于训练为了能够评估模型的泛化能力，可以通过实验测试对学习器的泛化能力进行评…
K 近邻
- 18
- 0
ludaodao23年5月19日
4 – K 近邻算法 API

1. Sklearn API介绍本小节使用 scikit-learn 的 KNN API 来完成对鸢尾花数据集的预测. API介绍 2. 鸢尾花分类示例代码鸢尾花数据集鸢尾花Iris Dataset数据集是机器学习领域经典数据集，鸢尾花数据集包含了150条鸢尾花信息，每50条取自三个鸢尾花中之一：Versicolour、Setosa和Virginica 每个花的特征用如下属性描述：示例代码…
K 近邻
- 20
- 0
ludaodao23年5月19日
3 – 归一化和标准化

1. 为什么做归一化和标准化样本中有多个特征，每一个特征都有自己的定义域和取值范围，他们对距离计算也是不同的，如取值较大的影响力会盖过取值较小的参数。因此，为了公平，样本参数必须做一些归一化处理，将不同的特征都缩放到相同的区间或者分布内。 2. 归一化通过对原始数据进行变换，把数据映射到(默认为[0,1])之间。 scikit-learn 中实现归一化的 API: from sklearn.p…
K 近邻
- 16
- 0
ludaodao23年5月19日
2 – 距离度量方法

1. 机器学习中为什么要度量距离？机器学习算法中，经常需要判断两个样本之间是否相似，比如KNN，K-means，推荐算法中的协同过滤等等，常用的套路是将相似的判断转换成距离的计算，距离近的样本相似程度高，距离远的相似程度低。所以度量距离是很多算法中的关键步骤。 KNN算法中要求数据的所有特征都用数值表示。若在数据特征中存在非数值类型，必须采用手段将…
K 近邻
- 19
- 0
ludaodao23年5月19日
1 – K 近邻算法原理

1. 为什么学习KNN算法 KNN是监督学习分类算法，主要解决现实生活中分类问题。根据目标的不同将监督学习任务分为了分类学习及回归预测问题。监督学习任务的基本流程和架构：首先准备数据，可以是视频、音频、文本、图片等等抽取所需要的一些列特征，形成特征向量（Feature Vectors）将这些特征向量连同标记（Label）一并送入机器学习算法中，训练出一个预测模型（Predictive M…
K 近邻
- 17
- 0
ludaodao23年5月19日
K 近邻教程简介

主要包括内容如下：为什么学习KNN算法理解K近邻算法的原理理解距离的度量方法理解归一化和标准化的作用理解K值如何选择使用 sklearn 封装的K近邻算法API 解决问题最后，通过所学的知识完成手写数字识别案例。
K 近邻
- 63
- 0
ludaodao23年5月19日