原文:(数据科学学习手札134)pyjanitor:为pandas补充更多功能

本文示例代码及文件已上传至我的Github仓库https: github.com CNFeffery DataScienceStudyNotes 简介 pandas发展了如此多年,所包含的功能已经覆盖了大部分数据清洗 分析场景,但仍然有着相当一部分的应用场景pandas中尚存空白亦或是现阶段的操作方式不够简洁方便。 今天我要给大家介绍的Python库pyjanitor就内置了诸多功能方法,可以在 ...

2022-03-12 18:56 0 971 推荐指数:

查看详情

数据科学学习手札73)盘点pandas 1.0.0中的新特性

本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   毫无疑问pandas已经成为基于Python的数据分析领域最重要的包,而就在最近,pandas终于迎来了1.0.0版本 ...

Thu Jan 23 03:09:00 CST 2020 0 1109
数据科学学习手札86)全平台支持的pandas运算加速神器

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   随着其功能的不断优化与扩充,pandas已然成为数据分析领域最受欢迎的工具之一,但其仍然有着一个不容忽视的短板——难以快速处理 ...

Sat Jun 06 02:02:00 CST 2020 1 922
数据科学学习手札92)利用query()与eval()优化pandas代码

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   利用pandas进行数据分析的过程,不仅仅是计算出结果那么简单,很多初学者喜欢在计算过程中创建一堆命名随心所欲的中间变量,一方 ...

Fri Aug 07 23:26:00 CST 2020 2 1047
数据科学学习手札52)pandas中的ExcelWriter和ExcelFile

一、简介   pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控时非常方便,本文就将针对这两个类的使用方法展开介绍; 二、ExcelFile ...

Thu Nov 22 22:27:00 CST 2018 6 14610
数据科学学习手札68)pandas中的categorical类型及应用

一、简介   categorical是pandas中对应分类变量的一种数据类型,与R中的因子型变量比较相似,例如性别、血型等等用于表征类别的变量都可以用其来表示,本文就将针对categorical的相关内容及应用进行介绍。 二、创建与应用 2.1 基本特性和适用场景   在介绍 ...

Wed Sep 04 03:27:00 CST 2019 0 2127
数据科学学习手札21)sklearn.datasets常用功能详解

作为Python中经典的机器学习模块,sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集,本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进行详细介绍; datasets中的数据集分为很多种,本文介绍几类常用的数据集生成方法,本文总结 ...

Sun Apr 01 22:51:00 CST 2018 0 7723
数据科学学习手札25)sklearn中的特征选择相关功能

一、简介   在现实的机器学习任务中,自变量往往数量众多,且类型可能由连续型(continuou)和离散型(discrete)混杂组成,因此出于节约计算成本、精简模型、增强模型的泛化性能等角度考虑,我们常常需要对原始变量进行一系列的预处理及筛选,剔除掉冗杂无用的成分,得到较为满意的训练集,才会 ...

Fri Apr 13 05:15:00 CST 2018 4 1954
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM