原文:(数据科学学习手札58)在R中处理有缺失值数据的高级方法

一 简介 在实际工作中,遇到数据中带有缺失值是非常常见的现象,简单粗暴的做法如直接删除包含缺失值的记录 删除缺失值比例过大的变量 用 填充缺失值等,但这些做法会很大程度上影响原始数据的分布或者浪费来之不易的数据信息,因此怎样妥当地处理缺失值是一个持续活跃的领域,贡献出众多巧妙的方法,在不浪费信息和不破坏原始数据分布上试图寻得一个平衡点,在R中用于处理缺失值的包有很多,本文将对最为广泛被使用的mic ...

2019-05-29 21:56 0 560 推荐指数:

查看详情

数据科学学习手札131)pandas的常用字符串处理方法总结

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   在日常开展数据分析的过程,我们经常需要对字符串类型数据进行处理,此类过程往往都比较繁琐,而pandas作为表格数据 ...

Sun Nov 21 23:42:00 CST 2021 0 1062
数据科学学习手札29)KNN分类的原理详解&Python与R实现

一、简介   KNN(k-nearst neighbors,KNN)作为机器学习算法的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点,就可以利用天然的临近关系来进行分类; 二、原理   KNN ...

Thu Apr 26 06:11:00 CST 2018 0 1109
数据科学学习手札27)sklearn数据集分割方法汇总

一、简介   在现实的机器学习任务,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分布也不一定就与真实的全体相同,但是有一点很明确,样本集数量越大则其接近真实全体的可能性也就 ...

Sun Apr 15 03:44:00 CST 2018 0 10173
数据科学学习手札54)Pythonretry的简单用法

一、简介   retry是一个用于错误处理的模块,功能类似try-except,但更加快捷方便,本文就将简单地介绍一下retry的基本用法。 二、基本用法 retry:   作为装饰器进行使用,不传入参数时功能如下例所示:   我们编写了每次运行都会通过raise报错 ...

Sat Feb 02 07:54:00 CST 2019 0 1217
数据科学学习手札125)在Python操纵json数据的最佳方式

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   在日常使用Python的过程,我们经常会与json格式的数据打交道,尤其是那种嵌套结构复杂的json数据,从中抽取复杂 ...

Mon Aug 02 03:58:00 CST 2021 0 330
数据科学学习手札73)盘点pandas 1.0.0的新特性

本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   毫无疑问pandas已经成为基于Python的数据分析领域最重要的包,而就在最近,pandas终于迎来了1.0.0版本 ...

Thu Jan 23 03:09:00 CST 2020 0 1109
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM