這本書看完,重點分為以下幾大點:
1.Numpy包
這書數據分析的基礎包,其中核心的我認為是ndarray,也就是一種多維數組對象;
這種數組里面還有索引和切片的概念,也很重要;
除此之外,計算多維數組還對應着許多通用函數,有些常用的函數,我們要記住且會使;
2.Pandas庫
這個庫在數據分析中是十分重要的,其中Series和DataFrame兩種數據結構尤為重要;
本庫中還有一些十分重要的基本功能,包括各種索引選取過濾,處理缺失數據,匯總和計算統計描述等;
3.繪圖和可視化
本節最重要的就是掌握 matplotlib 工具的使用,
利用此工具可以畫出各種樣式的圖形,如柱狀圖、直方圖、密度圖、散布圖等;
4.時間序列
本節最重要的幾個概念:時間戳(timestamp)、固定時期(period)、時間間隔(interval);
5.數據加載、存儲和文件格式
本節主要講各種格式的數據如何讀取和存儲,包括文本格式、JSON、二進制數據格式;
6.數據清理、轉換、合並和重塑
本節主要講數據的規整化,包括數據集的合並:索引合並、重疊數據合並;
然后是數據轉換和字符串操作;
7.數據聚合與分組運算
本節主要講了利用pandas庫中十分重要的函數-----groupby,它能使你以一種自然的方式對數據集進行切片、切塊、摘要等操作;
本節主要掌握:
①根據一個或多個鍵拆分pandas對象
②計算分組摘要統計,如計數、平均值、標准差,或用戶自定義函數
③對DataFrame的列應用各種各樣的函數
④應用組內轉換或其他運算,如規格化、線性回歸、排名或選取子集
⑤計算透視表或交叉表
⑥執行分位數分析以及其他分組分析