精通pandas


精通pandas

掌握Python數據分析庫pandas的特性和能力

第一章:pandas和數據分析介紹

數據分析的動機

我們生活在大數據的世界

大數據的4V

大數據的容量

大數據的增長速度

大數據的多樣性

大數據的精確性

這么多數據,這么少的分析時間

實時數據分析的趨勢

Python和pandas一起來數據分析

pandas是什么

pandas的優點

匯總

第二章:pandas的安裝和支持的軟件

選擇合適的Python版本

Python安裝

Linux

  • 從壓縮tar包安裝

windows

  • 核心Python安裝
  • 第三方Python軟件安裝

Mac OSX

  • 從包管理器安裝

Python和pandas從第三方平台安裝

接着學習數據分析Anaconda

安裝Anaconda

  • Linux
  • Max OS X
  • Windows
  • 所有平台的最后一步

其他Python數據分析分發包

下載安裝pandas

Linux

  • Ubuntu/Debian
  • Red Hat
  • Fedora
  • OpenSure

Max

  • 源代碼安裝
  • 二進制安裝

Windows

  • 二進制安裝
  • 源代碼安裝
  • IPython
  • IPython Notebook

IPython安裝

Linux

WIndows

Max OS X

通過Anaconda安裝

持續分析若離

虛擬環境

虛擬環境安裝和用法

匯總

第三章:pandas的數據結構

NumPy 數組

NumPy 數組的創建

通過numpy.array創建的NumPy數組

通過numpy.arange創建的NumPy數組

通過numpy.linspace創建的NumPy數組

通過其他函數創建的NumPy 數組

NumPy 數據類型

NumPy 索引和切片

  • 數組索引
  • 數組掩膜
  • 復雜的索引

拷貝和視圖

操作

  • 基本操作
  • Reduce操作
  • 統計操作
  • 邏輯操作

廣播

數組的塑形操作

  • Flatten多維數組
  • Reshape
  • Resize
  • 增加維度

數組排序

pandas的數據結構

Series

  • Series創建
  • Series操作

DataFrame

  • DataFrame創建
  • 操作

Panel

  • 使用帶有坐標標注的3DNumPy數組
  • 將DataFrame 對象作為Python字典使用
  • 使用DataFrame的to_panel方法
  • 其他操作

匯總

第四章:pandas的操作,第一部分-索引和選擇

基本索引

用點操作符操作屬性

范圍切片

標注,整型,混合索引

面向標注的索引

  • 用Boolean數組選擇

面向整型的索引

.iat 和.at操作符

多索引

Swap和reorder級別

交叉部分

Boolean索引

is in 和 any all 方法

where方法的使用

索引的操作

匯總

第五章:pandas中的操作,第二部分-Grouping,Merging,以及Reshaping數據

數據的分組

groupby操作

用多索引分組

用aggregate方法

應用多個函數

transform方法

Filtering

Merge 和JOIN

concat函數

append使用

將單行追加到DataFrame

DataFrame對象上SQL類似的融合和關聯

  • join函數

數據的Pivot和reshaping

Stacking和unstacking

  • stack函數

其他重塑DataFrame的方法

  • 使用melt函數

匯總

第六章:缺失數據,時間序列,以及使用Matplotlib繪圖

處理缺失數據

處理缺失值

處理時間序列

讀取時間序列值 

  • DateOffset和TimeDelta對象

時間序列相關對象的方法

  • Shifting/lagging
  • 頻率轉化
  • 數據重采樣
  • 時間序列頻率的別名

時間序列概念和數據類型

  • 時間段和時間段索引
  • 時間序列數據類型的轉化

時間序列相關的匯總

使用matplotlib作圖

匯總

第七章:統計的介紹-傳統方法

敘述性統計和推理性統計

集中趨勢和多變性的測量

集中趨勢的測量

  • 平均值
  • 中值
  • 模式
  • Python數據集中計算集中趨勢

多變性,離散型或蔓延性的測量

  • 范圍
  • 四分點法
  • 標准差和方差

假設驗證-空假設和選擇性假設

空假設和選擇性假設

  • alpha和p值
  • 類型I錯誤和類型II錯誤

統計的假設驗證

  • 背景知識
  • z-test
  • t-test
  • t-test例子

信心間隔

  • 說明例子

相關性和線性回歸

  • 相關性
  • 線性回歸
  • 說明例子

匯總

第八章:貝葉斯變換統計

貝葉斯統計的介紹

貝葉斯統計的數學框架

貝葉斯理論和幾率

貝葉斯統計的應用

概率分布

使概率分布合適

  • 離散型概率分布
  • 離散型唯一分布
  • 持續性概率分布

貝葉斯統計和頻率統計

什么是可能性?

模型如何定義

信心(頻率論者)間隔 對比 可靠(貝葉斯)間隔

給貝葉斯統計分析貢獻

Monte Carlo 可能性函數的估計和PyMC

貝葉斯累--開關點偵測

參考資料

匯總

第九章:pandas庫的架構

pandas文件層次的介紹

pandas模塊和文件的描述

pandas/core

pandas/io

pandas/tools

pandas/sparse

pandas/stats

pandas/util

pandas/util

pandas/rpy

pandas/tests

pandas/compat

pandas/computaion

pandas/tseries

pandas/sandbox

利用Python擴展改善性能

匯總

第十章:R和pandas的比較

R 數據類型

R lists

R DataFrames

切片和選擇

R-矩陣和NumPy數組的比較

R lists和pandas序列的比較

  • R中的表明列的名稱
  • pandas中表明列的名稱

R DataFrames 和pandasDataFrames

  • R中多列的選擇
  • pandas多列的選擇

列上的算術操作

Aggregation 和GroupBy

R中的聚合

pandas的GroupBy操作

R中和pandas操作符的比較

R %in% 操作符

pandas isin函數

邏輯子集

R中邏輯子集

pandas中邏輯子集

分割和結合

R中的實現

pandas中的實現

用melt Reshaping

R中melt函數

pandas中melt函數

因素/絕對的數據

用cut的R例子

pandas解決方案

匯總

第十一章:機器學習的簡明學習

pandas在機器學習中的角色

scikit-learn的安裝

通過Anaconda安裝

Unix上安裝

Windows安裝

機器學習介紹

監督性學習 &非監督性學習

用文檔分類來說明

  • 監督性學習
  • 非監督性學習

機器學習系統如何學習

機器學習應用-Kaggle Titanic競賽

Titanic:機器學習從災難問題中學習

適應問題

數據分析和用pandas預處理

測試數據

處理缺省值

Titanic問題的本地化解決方案

scikit-learn ML/分類器接口

監督性學習算法

在scikit-learn中使用Patsy時建立模型

  通用的代碼樣版說明

符號邏輯回歸

向量機器支持

決策樹

隨機森林

非監督性學習算法

維度縮減

K-means 集群

匯總

索引

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM