精通pandas
掌握Python數據分析庫pandas的特性和能力
第一章:pandas和數據分析介紹
數據分析的動機
我們生活在大數據的世界
大數據的4V
大數據的容量
大數據的增長速度
大數據的多樣性
大數據的精確性
這么多數據,這么少的分析時間
實時數據分析的趨勢
Python和pandas一起來數據分析
pandas是什么
pandas的優點
匯總
第二章:pandas的安裝和支持的軟件
選擇合適的Python版本
Python安裝
Linux
- 從壓縮tar包安裝
windows
- 核心Python安裝
- 第三方Python軟件安裝
Mac OSX
- 從包管理器安裝
Python和pandas從第三方平台安裝
接着學習數據分析Anaconda
安裝Anaconda
- Linux
- Max OS X
- Windows
- 所有平台的最后一步
其他Python數據分析分發包
下載安裝pandas
Linux
- Ubuntu/Debian
- Red Hat
- Fedora
- OpenSure
Max
- 源代碼安裝
- 二進制安裝
Windows
- 二進制安裝
- 源代碼安裝
- IPython
- IPython Notebook
IPython安裝
Linux
WIndows
Max OS X
通過Anaconda安裝
持續分析若離
虛擬環境
虛擬環境安裝和用法
匯總
第三章:pandas的數據結構
NumPy 數組
NumPy 數組的創建
通過numpy.array創建的NumPy數組
通過numpy.arange創建的NumPy數組
通過numpy.linspace創建的NumPy數組
通過其他函數創建的NumPy 數組
NumPy 數據類型
NumPy 索引和切片
- 數組索引
- 數組掩膜
- 復雜的索引
拷貝和視圖
操作
- 基本操作
- Reduce操作
- 統計操作
- 邏輯操作
廣播
數組的塑形操作
- Flatten多維數組
- Reshape
- Resize
- 增加維度
數組排序
pandas的數據結構
Series
- Series創建
- Series操作
DataFrame
- DataFrame創建
- 操作
Panel
- 使用帶有坐標標注的3DNumPy數組
- 將DataFrame 對象作為Python字典使用
- 使用DataFrame的to_panel方法
- 其他操作
匯總
第四章:pandas的操作,第一部分-索引和選擇
基本索引
用點操作符操作屬性
范圍切片
標注,整型,混合索引
面向標注的索引
- 用Boolean數組選擇
面向整型的索引
.iat 和.at操作符
多索引
Swap和reorder級別
交叉部分
Boolean索引
is in 和 any all 方法
where方法的使用
索引的操作
匯總
第五章:pandas中的操作,第二部分-Grouping,Merging,以及Reshaping數據
數據的分組
groupby操作
用多索引分組
用aggregate方法
應用多個函數
transform方法
Filtering
Merge 和JOIN
concat函數
append使用
將單行追加到DataFrame
DataFrame對象上SQL類似的融合和關聯
- join函數
數據的Pivot和reshaping
Stacking和unstacking
- stack函數
其他重塑DataFrame的方法
- 使用melt函數
匯總
第六章:缺失數據,時間序列,以及使用Matplotlib繪圖
處理缺失數據
處理缺失值
處理時間序列
讀取時間序列值
- DateOffset和TimeDelta對象
時間序列相關對象的方法
- Shifting/lagging
- 頻率轉化
- 數據重采樣
- 時間序列頻率的別名
時間序列概念和數據類型
- 時間段和時間段索引
- 時間序列數據類型的轉化
時間序列相關的匯總
使用matplotlib作圖
匯總
第七章:統計的介紹-傳統方法
敘述性統計和推理性統計
集中趨勢和多變性的測量
集中趨勢的測量
- 平均值
- 中值
- 模式
- Python數據集中計算集中趨勢
多變性,離散型或蔓延性的測量
- 范圍
- 四分點法
- 標准差和方差
假設驗證-空假設和選擇性假設
空假設和選擇性假設
- alpha和p值
- 類型I錯誤和類型II錯誤
統計的假設驗證
- 背景知識
- z-test
- t-test
- t-test例子
信心間隔
- 說明例子
相關性和線性回歸
- 相關性
- 線性回歸
- 說明例子
匯總
第八章:貝葉斯變換統計
貝葉斯統計的介紹
貝葉斯統計的數學框架
貝葉斯理論和幾率
貝葉斯統計的應用
概率分布
使概率分布合適
- 離散型概率分布
- 離散型唯一分布
- 持續性概率分布
貝葉斯統計和頻率統計
什么是可能性?
模型如何定義
信心(頻率論者)間隔 對比 可靠(貝葉斯)間隔
給貝葉斯統計分析貢獻
Monte Carlo 可能性函數的估計和PyMC
貝葉斯累--開關點偵測
參考資料
匯總
第九章:pandas庫的架構
pandas文件層次的介紹
pandas模塊和文件的描述
pandas/core
pandas/io
pandas/tools
pandas/sparse
pandas/stats
pandas/util
pandas/util
pandas/rpy
pandas/tests
pandas/compat
pandas/computaion
pandas/tseries
pandas/sandbox
利用Python擴展改善性能
匯總
第十章:R和pandas的比較
R 數據類型
R lists
R DataFrames
切片和選擇
R-矩陣和NumPy數組的比較
R lists和pandas序列的比較
- R中的表明列的名稱
- pandas中表明列的名稱
R DataFrames 和pandasDataFrames
- R中多列的選擇
- pandas多列的選擇
列上的算術操作
Aggregation 和GroupBy
R中的聚合
pandas的GroupBy操作
R中和pandas操作符的比較
R %in% 操作符
pandas isin函數
邏輯子集
R中邏輯子集
pandas中邏輯子集
分割和結合
R中的實現
pandas中的實現
用melt Reshaping
R中melt函數
pandas中melt函數
因素/絕對的數據
用cut的R例子
pandas解決方案
匯總
第十一章:機器學習的簡明學習
pandas在機器學習中的角色
scikit-learn的安裝
通過Anaconda安裝
Unix上安裝
Windows安裝
機器學習介紹
監督性學習 &非監督性學習
用文檔分類來說明
- 監督性學習
- 非監督性學習
機器學習系統如何學習
機器學習應用-Kaggle Titanic競賽
Titanic:機器學習從災難問題中學習
適應問題
數據分析和用pandas預處理
測試數據
處理缺省值
Titanic問題的本地化解決方案
scikit-learn ML/分類器接口
監督性學習算法
在scikit-learn中使用Patsy時建立模型
通用的代碼樣版說明
符號邏輯回歸
向量機器支持
決策樹
隨機森林
非監督性學習算法
維度縮減
K-means 集群
匯總
索引