利用python進行數據分析


這本書看完,重點分為以下幾大點:

1.Numpy包

這書數據分析的基礎包,其中核心的我認為是ndarray,也就是一種多維數組對象;

這種數組里面還有索引和切片的概念,也很重要;

除此之外,計算多維數組還對應着許多通用函數,有些常用的函數,我們要記住且會使;

 

2.Pandas庫

這個庫在數據分析中是十分重要的,其中Series和DataFrame兩種數據結構尤為重要;

本庫中還有一些十分重要的基本功能,包括各種索引選取過濾,處理缺失數據,匯總和計算統計描述等;

 

 

3.繪圖和可視化

本節最重要的就是掌握 matplotlib 工具的使用,

利用此工具可以畫出各種樣式的圖形,如柱狀圖、直方圖、密度圖、散布圖等;

 

4.時間序列

本節最重要的幾個概念:時間戳(timestamp)、固定時期(period)、時間間隔(interval);

 

5.數據加載、存儲和文件格式

本節主要講各種格式的數據如何讀取和存儲,包括文本格式、JSON、二進制數據格式;

 

6.數據清理、轉換、合並和重塑

本節主要講數據的規整化,包括數據集的合並:索引合並、重疊數據合並;

然后是數據轉換和字符串操作;

 

7.數據聚合與分組運算

本節主要講了利用pandas庫中十分重要的函數-----groupby,它能使你以一種自然的方式對數據集進行切片、切塊、摘要等操作;

本節主要掌握:
①根據一個或多個鍵拆分pandas對象

②計算分組摘要統計,如計數、平均值、標准差,或用戶自定義函數

③對DataFrame的列應用各種各樣的函數

④應用組內轉換或其他運算,如規格化、線性回歸、排名或選取子集

⑤計算透視表或交叉表

⑥執行分位數分析以及其他分組分析

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM