一、KNN算法的介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量;然后根据距离计算待测试样本和每个训练样本的距离,选择距离最小的K个样本作为近邻样本;最后根据K个近邻样本 ...
一 数据预处理 训练数据集和验证数据集分别为train.csv和test.csv。数据集下载地址:http: pan.baidu.com s eQyIvZG 要分别对训练数据集和验证数据集进行分析,分析其内部数据的特征,下面分别对两个数据集进行处理: . 训练数据集处理 train.csv 里面结构为 。其中第一行为文字说明,应该去掉,其余每一行均表示一个图像,大小为 ,共 个像素值 第一列为类标 ...
2015-08-17 17:20 0 3603 推荐指数:
一、KNN算法的介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量;然后根据距离计算待测试样本和每个训练样本的距离,选择距离最小的K个样本作为近邻样本;最后根据K个近邻样本 ...
卷积神经网络(CNN) 具体解释见文章 以下是代码实现: 1. 加载数据 PyTorch里包含了 MNIST, CIFAR10 等常用数据集,调用 torchvision.datasets 即可把这些数据由远程下载到本地,下面给出MNIST的使用方法 ...
MNIST数据集包含了70000张0~9的手写数字图像。 一、准备工作:导入MNIST数据集 fatch_openml用来加载数据集,所加载的数据集是一个key-value的字典结构 输入:mnist.keys() 可以看到字典的键值包括:dict_keys(['data ...
任务目标 对MNIST手写数字数据集进行训练和评估,最终使得模型能够在测试集上达到\(98\%\)的正确率。(最终本文达到了\(99.36\%\)) 使用的库的版本: python:3.8.12 pytorch:1.5.1 代码地址GitHub:https ...
由于KNN的计算量太大,还没有使用KD-tree进行优化,所以对于60000训练集,10000测试集的数据计算比较慢。这里只是想测试观察一下KNN的效果而已,不调参。 K选择之前看过貌似最好不要超过20,因此,此处选择了K=10,距离为欧式距离。如果需要改进,可以再调整K来选择最好的成绩 ...
前言: 上篇介绍了knn的实现过程,这次我们使用库里自带的数据集来进行knn的实现。 正文: 各类参数如下: avg / total 0.96 0.95 0.95 40 [[20 0 0] [ 0 10 2] [ 0 0 8]] 总结: 这个算法 ...
目录 数据集处理 数据获取 数据划分 可视化 方法1 DecisionTree 类定义 构建决策树 基尼值 基尼系数 寻找划分维度 构建决策树 ...
mnist 数据集:包含 7 万张黑底白字手写数字图片,其中 55000 张为训练集,5000 张为验证集,10000 张为测试集。每张图片大小为 28*28 像素,图片中纯黑色像素值为 0,纯白色像素值为 1。数据集的标签是长度为 10 的一维数组,数组中每个元素索引号表示对应 ...