原文:(數據科學學習手札63)利用pandas讀寫HDF5文件

一 簡介 HDF Hierarchical Data Formal 是用於存儲大規模數值數據的較為理想的存儲格式,文件后綴名為h ,存儲讀取速度非常快,且可在文件內部按照明確的層次存儲數據,同一個HDF 可以看做一個高度整合的文件夾,其內部可存放不同類型的數據。在Python中操縱HDF 文件的方式主要有兩種,一是利用pandas中內建的一系列HDF 文件操作相關的方法來將pandas中的數據結構 ...

2019-07-05 20:59 2 4313 推薦指數:

查看詳情

數據科學學習手札92)利用query()與eval()優化pandas代碼

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   利用pandas進行數據分析的過程,不僅僅是計算出結果那么簡單,很多初學者喜歡在計算過程中創建一堆命名隨心所欲的中間變量,一方 ...

Fri Aug 07 23:26:00 CST 2020 2 1047
數據科學學習手札73)盤點pandas 1.0.0中的新特性

本文對應腳本及數據已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   毫無疑問pandas已經成為基於Python的數據分析領域最重要的包,而就在最近,pandas終於迎來了1.0.0版本 ...

Thu Jan 23 03:09:00 CST 2020 0 1109
數據科學學習手札134)pyjanitor:為pandas補充更多功能

本文示例代碼及文件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   pandas發展了如此多年,所包含的功能已經覆蓋了大部分數據清洗、分析場景,但仍然有着相當一部分的應用場景pandas中 ...

Sun Mar 13 02:56:00 CST 2022 0 971
數據科學學習手札52)pandas中的ExcelWriter和ExcelFile

一、簡介   pandas中的ExcelFile()和ExcelWriter(),是pandas中對excel表格文件進行讀寫相關操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便,本文就將針對這兩個類的使用方法展開介紹; 二、ExcelFile ...

Thu Nov 22 22:27:00 CST 2018 6 14610
數據科學學習手札97)掌握pandas中的transform

本文示例文件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   開門見山,在pandas中,transform是一類非常實用的方法,通過它我們可以很方便地將某個或某些函數處理過程(非聚合)作用 ...

Thu Oct 15 05:06:00 CST 2020 0 808
數據科學學習手札68)pandas中的categorical類型及應用

一、簡介   categorical是pandas中對應分類變量的一種數據類型,與R中的因子型變量比較相似,例如性別、血型等等用於表征類別的變量都可以用其來表示,本文就將針對categorical的相關內容及應用進行介紹。 二、創建與應用 2.1 基本特性和適用場景   在介紹 ...

Wed Sep 04 03:27:00 CST 2019 0 2127
數據科學學習手札71)利用Python繪制詞雲圖

本文對應腳本及數據已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   詞雲圖是文本挖掘中用來表征詞頻的數據可視化圖像,通過它可以很直觀地展現文本數據中地高頻詞: 圖1 詞雲圖 ...

Mon Nov 18 01:57:00 CST 2019 4 912
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM