精通pandas
掌握Python数据分析库pandas的特性和能力
第一章:pandas和数据分析介绍
数据分析的动机
我们生活在大数据的世界
大数据的4V
大数据的容量
大数据的增长速度
大数据的多样性
大数据的精确性
这么多数据,这么少的分析时间
实时数据分析的趋势
Python和pandas一起来数据分析
pandas是什么
pandas的优点
汇总
第二章:pandas的安装和支持的软件
选择合适的Python版本
Python安装
Linux
- 从压缩tar包安装
windows
- 核心Python安装
- 第三方Python软件安装
Mac OSX
- 从包管理器安装
Python和pandas从第三方平台安装
接着学习数据分析Anaconda
安装Anaconda
- Linux
- Max OS X
- Windows
- 所有平台的最后一步
其他Python数据分析分发包
下载安装pandas
Linux
- Ubuntu/Debian
- Red Hat
- Fedora
- OpenSure
Max
- 源代码安装
- 二进制安装
Windows
- 二进制安装
- 源代码安装
- IPython
- IPython Notebook
IPython安装
Linux
WIndows
Max OS X
通过Anaconda安装
持续分析若离
虚拟环境
虚拟环境安装和用法
汇总
第三章:pandas的数据结构
NumPy 数组
NumPy 数组的创建
通过numpy.array创建的NumPy数组
通过numpy.arange创建的NumPy数组
通过numpy.linspace创建的NumPy数组
通过其他函数创建的NumPy 数组
NumPy 数据类型
NumPy 索引和切片
- 数组索引
- 数组掩膜
- 复杂的索引
拷贝和视图
操作
- 基本操作
- Reduce操作
- 统计操作
- 逻辑操作
广播
数组的塑形操作
- Flatten多维数组
- Reshape
- Resize
- 增加维度
数组排序
pandas的数据结构
Series
- Series创建
- Series操作
DataFrame
- DataFrame创建
- 操作
Panel
- 使用带有坐标标注的3DNumPy数组
- 将DataFrame 对象作为Python字典使用
- 使用DataFrame的to_panel方法
- 其他操作
汇总
第四章:pandas的操作,第一部分-索引和选择
基本索引
用点操作符操作属性
范围切片
标注,整型,混合索引
面向标注的索引
- 用Boolean数组选择
面向整型的索引
.iat 和.at操作符
多索引
Swap和reorder级别
交叉部分
Boolean索引
is in 和 any all 方法
where方法的使用
索引的操作
汇总
第五章:pandas中的操作,第二部分-Grouping,Merging,以及Reshaping数据
数据的分组
groupby操作
用多索引分组
用aggregate方法
应用多个函数
transform方法
Filtering
Merge 和JOIN
concat函数
append使用
将单行追加到DataFrame
DataFrame对象上SQL类似的融合和关联
- join函数
数据的Pivot和reshaping
Stacking和unstacking
- stack函数
其他重塑DataFrame的方法
- 使用melt函数
汇总
第六章:缺失数据,时间序列,以及使用Matplotlib绘图
处理缺失数据
处理缺失值
处理时间序列
读取时间序列值
- DateOffset和TimeDelta对象
时间序列相关对象的方法
- Shifting/lagging
- 频率转化
- 数据重采样
- 时间序列频率的别名
时间序列概念和数据类型
- 时间段和时间段索引
- 时间序列数据类型的转化
时间序列相关的汇总
使用matplotlib作图
汇总
第七章:统计的介绍-传统方法
叙述性统计和推理性统计
集中趋势和多变性的测量
集中趋势的测量
- 平均值
- 中值
- 模式
- Python数据集中计算集中趋势
多变性,离散型或蔓延性的测量
- 范围
- 四分点法
- 标准差和方差
假设验证-空假设和选择性假设
空假设和选择性假设
- alpha和p值
- 类型I错误和类型II错误
统计的假设验证
- 背景知识
- z-test
- t-test
- t-test例子
信心间隔
- 说明例子
相关性和线性回归
- 相关性
- 线性回归
- 说明例子
汇总
第八章:贝叶斯变换统计
贝叶斯统计的介绍
贝叶斯统计的数学框架
贝叶斯理论和几率
贝叶斯统计的应用
概率分布
使概率分布合适
- 离散型概率分布
- 离散型唯一分布
- 持续性概率分布
贝叶斯统计和频率统计
什么是可能性?
模型如何定义
信心(频率论者)间隔 对比 可靠(贝叶斯)间隔
给贝叶斯统计分析贡献
Monte Carlo 可能性函数的估计和PyMC
贝叶斯累--开关点侦测
参考资料
汇总
第九章:pandas库的架构
pandas文件层次的介绍
pandas模块和文件的描述
pandas/core
pandas/io
pandas/tools
pandas/sparse
pandas/stats
pandas/util
pandas/util
pandas/rpy
pandas/tests
pandas/compat
pandas/computaion
pandas/tseries
pandas/sandbox
利用Python扩展改善性能
汇总
第十章:R和pandas的比较
R 数据类型
R lists
R DataFrames
切片和选择
R-矩阵和NumPy数组的比较
R lists和pandas序列的比较
- R中的表明列的名称
- pandas中表明列的名称
R DataFrames 和pandasDataFrames
- R中多列的选择
- pandas多列的选择
列上的算术操作
Aggregation 和GroupBy
R中的聚合
pandas的GroupBy操作
R中和pandas操作符的比较
R %in% 操作符
pandas isin函数
逻辑子集
R中逻辑子集
pandas中逻辑子集
分割和结合
R中的实现
pandas中的实现
用melt Reshaping
R中melt函数
pandas中melt函数
因素/绝对的数据
用cut的R例子
pandas解决方案
汇总
第十一章:机器学习的简明学习
pandas在机器学习中的角色
scikit-learn的安装
通过Anaconda安装
Unix上安装
Windows安装
机器学习介绍
监督性学习 &非监督性学习
用文档分类来说明
- 监督性学习
- 非监督性学习
机器学习系统如何学习
机器学习应用-Kaggle Titanic竞赛
Titanic:机器学习从灾难问题中学习
适应问题
数据分析和用pandas预处理
测试数据
处理缺省值
Titanic问题的本地化解决方案
scikit-learn ML/分类器接口
监督性学习算法
在scikit-learn中使用Patsy时建立模型
通用的代码样版说明
符号逻辑回归
向量机器支持
决策树
随机森林
非监督性学习算法
维度缩减
K-means 集群
汇总
索引