原文:(数据科学学习手札63)利用pandas读写HDF5文件

一 简介 HDF Hierarchical Data Formal 是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h ,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个HDF 可以看做一个高度整合的文件夹,其内部可存放不同类型的数据。在Python中操纵HDF 文件的方式主要有两种,一是利用pandas中内建的一系列HDF 文件操作相关的方法来将pandas中的数据结构 ...

2019-07-05 20:59 2 4313 推荐指数:

查看详情

数据科学学习手札92)利用query()与eval()优化pandas代码

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   利用pandas进行数据分析的过程,不仅仅是计算出结果那么简单,很多初学者喜欢在计算过程中创建一堆命名随心所欲的中间变量,一方 ...

Fri Aug 07 23:26:00 CST 2020 2 1047
数据科学学习手札73)盘点pandas 1.0.0中的新特性

本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   毫无疑问pandas已经成为基于Python的数据分析领域最重要的包,而就在最近,pandas终于迎来了1.0.0版本 ...

Thu Jan 23 03:09:00 CST 2020 0 1109
数据科学学习手札134)pyjanitor:为pandas补充更多功能

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   pandas发展了如此多年,所包含的功能已经覆盖了大部分数据清洗、分析场景,但仍然有着相当一部分的应用场景pandas中 ...

Sun Mar 13 02:56:00 CST 2022 0 971
数据科学学习手札52)pandas中的ExcelWriter和ExcelFile

一、简介   pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控时非常方便,本文就将针对这两个类的使用方法展开介绍; 二、ExcelFile ...

Thu Nov 22 22:27:00 CST 2018 6 14610
数据科学学习手札97)掌握pandas中的transform

本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   开门见山,在pandas中,transform是一类非常实用的方法,通过它我们可以很方便地将某个或某些函数处理过程(非聚合)作用 ...

Thu Oct 15 05:06:00 CST 2020 0 808
数据科学学习手札68)pandas中的categorical类型及应用

一、简介   categorical是pandas中对应分类变量的一种数据类型,与R中的因子型变量比较相似,例如性别、血型等等用于表征类别的变量都可以用其来表示,本文就将针对categorical的相关内容及应用进行介绍。 二、创建与应用 2.1 基本特性和适用场景   在介绍 ...

Wed Sep 04 03:27:00 CST 2019 0 2127
数据科学学习手札71)利用Python绘制词云图

本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词: 图1 词云图 ...

Mon Nov 18 01:57:00 CST 2019 4 912
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM