原文:(数据科学学习手札25)sklearn中的特征选择相关功能

一 简介 在现实的机器学习任务中,自变量往往数量众多,且类型可能由连续型 continuou 和离散型 discrete 混杂组成,因此出于节约计算成本 精简模型 增强模型的泛化性能等角度考虑,我们常常需要对原始变量进行一系列的预处理及筛选,剔除掉冗杂无用的成分,得到较为满意的训练集,才会继续我们的学习任务,这就是我们常说的特征选取 feature selection 。本篇就将对常见的特征选择方 ...

2018-04-12 21:15 4 1954 推荐指数:

查看详情

数据科学学习手札21)sklearn.datasets常用功能详解

作为Python中经典的机器学习模块,sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集,本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进行详细介绍; datasets数据集分为很多种,本文介绍几类常用的数据集生成方法,本文总结 ...

Sun Apr 01 22:51:00 CST 2018 0 7723
数据科学学习手札27)sklearn数据集分割方法汇总

一、简介   在现实的机器学习任务,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分布也不一定就与真实的全体相同,但是有一点很明确,样本集数量越大则其接近真实全体的可能性也就 ...

Sun Apr 15 03:44:00 CST 2018 0 10173
数据科学学习手札134)pyjanitor:为pandas补充更多功能

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   pandas发展了如此多年,所包含的功能已经覆盖了大部分数据清洗、分析场景,但仍然有着相当一部分的应用场景pandas ...

Sun Mar 13 02:56:00 CST 2022 0 971
数据科学学习手札54)Pythonretry的简单用法

一、简介   retry是一个用于错误处理的模块,功能类似try-except,但更加快捷方便,本文就将简单地介绍一下retry的基本用法。 二、基本用法 retry:   作为装饰器进行使用,不传入参数时功能如下例所示:   我们编写了每次运行都会通过raise报错 ...

Sat Feb 02 07:54:00 CST 2019 0 1217
数据科学学习手札125)在Python操纵json数据的最佳方式

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   在日常使用Python的过程,我们经常会与json格式的数据打交道,尤其是那种嵌套结构复杂的json数据,从中抽取复杂 ...

Mon Aug 02 03:58:00 CST 2021 0 330
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM