精通pandas


精通pandas

掌握Python数据分析库pandas的特性和能力

第一章:pandas和数据分析介绍

数据分析的动机

我们生活在大数据的世界

大数据的4V

大数据的容量

大数据的增长速度

大数据的多样性

大数据的精确性

这么多数据,这么少的分析时间

实时数据分析的趋势

Python和pandas一起来数据分析

pandas是什么

pandas的优点

汇总

第二章:pandas的安装和支持的软件

选择合适的Python版本

Python安装

Linux

  • 从压缩tar包安装

windows

  • 核心Python安装
  • 第三方Python软件安装

Mac OSX

  • 从包管理器安装

Python和pandas从第三方平台安装

接着学习数据分析Anaconda

安装Anaconda

  • Linux
  • Max OS X
  • Windows
  • 所有平台的最后一步

其他Python数据分析分发包

下载安装pandas

Linux

  • Ubuntu/Debian
  • Red Hat
  • Fedora
  • OpenSure

Max

  • 源代码安装
  • 二进制安装

Windows

  • 二进制安装
  • 源代码安装
  • IPython
  • IPython Notebook

IPython安装

Linux

WIndows

Max OS X

通过Anaconda安装

持续分析若离

虚拟环境

虚拟环境安装和用法

汇总

第三章:pandas的数据结构

NumPy 数组

NumPy 数组的创建

通过numpy.array创建的NumPy数组

通过numpy.arange创建的NumPy数组

通过numpy.linspace创建的NumPy数组

通过其他函数创建的NumPy 数组

NumPy 数据类型

NumPy 索引和切片

  • 数组索引
  • 数组掩膜
  • 复杂的索引

拷贝和视图

操作

  • 基本操作
  • Reduce操作
  • 统计操作
  • 逻辑操作

广播

数组的塑形操作

  • Flatten多维数组
  • Reshape
  • Resize
  • 增加维度

数组排序

pandas的数据结构

Series

  • Series创建
  • Series操作

DataFrame

  • DataFrame创建
  • 操作

Panel

  • 使用带有坐标标注的3DNumPy数组
  • 将DataFrame 对象作为Python字典使用
  • 使用DataFrame的to_panel方法
  • 其他操作

汇总

第四章:pandas的操作,第一部分-索引和选择

基本索引

用点操作符操作属性

范围切片

标注,整型,混合索引

面向标注的索引

  • 用Boolean数组选择

面向整型的索引

.iat 和.at操作符

多索引

Swap和reorder级别

交叉部分

Boolean索引

is in 和 any all 方法

where方法的使用

索引的操作

汇总

第五章:pandas中的操作,第二部分-Grouping,Merging,以及Reshaping数据

数据的分组

groupby操作

用多索引分组

用aggregate方法

应用多个函数

transform方法

Filtering

Merge 和JOIN

concat函数

append使用

将单行追加到DataFrame

DataFrame对象上SQL类似的融合和关联

  • join函数

数据的Pivot和reshaping

Stacking和unstacking

  • stack函数

其他重塑DataFrame的方法

  • 使用melt函数

汇总

第六章:缺失数据,时间序列,以及使用Matplotlib绘图

处理缺失数据

处理缺失值

处理时间序列

读取时间序列值 

  • DateOffset和TimeDelta对象

时间序列相关对象的方法

  • Shifting/lagging
  • 频率转化
  • 数据重采样
  • 时间序列频率的别名

时间序列概念和数据类型

  • 时间段和时间段索引
  • 时间序列数据类型的转化

时间序列相关的汇总

使用matplotlib作图

汇总

第七章:统计的介绍-传统方法

叙述性统计和推理性统计

集中趋势和多变性的测量

集中趋势的测量

  • 平均值
  • 中值
  • 模式
  • Python数据集中计算集中趋势

多变性,离散型或蔓延性的测量

  • 范围
  • 四分点法
  • 标准差和方差

假设验证-空假设和选择性假设

空假设和选择性假设

  • alpha和p值
  • 类型I错误和类型II错误

统计的假设验证

  • 背景知识
  • z-test
  • t-test
  • t-test例子

信心间隔

  • 说明例子

相关性和线性回归

  • 相关性
  • 线性回归
  • 说明例子

汇总

第八章:贝叶斯变换统计

贝叶斯统计的介绍

贝叶斯统计的数学框架

贝叶斯理论和几率

贝叶斯统计的应用

概率分布

使概率分布合适

  • 离散型概率分布
  • 离散型唯一分布
  • 持续性概率分布

贝叶斯统计和频率统计

什么是可能性?

模型如何定义

信心(频率论者)间隔 对比 可靠(贝叶斯)间隔

给贝叶斯统计分析贡献

Monte Carlo 可能性函数的估计和PyMC

贝叶斯累--开关点侦测

参考资料

汇总

第九章:pandas库的架构

pandas文件层次的介绍

pandas模块和文件的描述

pandas/core

pandas/io

pandas/tools

pandas/sparse

pandas/stats

pandas/util

pandas/util

pandas/rpy

pandas/tests

pandas/compat

pandas/computaion

pandas/tseries

pandas/sandbox

利用Python扩展改善性能

汇总

第十章:R和pandas的比较

R 数据类型

R lists

R DataFrames

切片和选择

R-矩阵和NumPy数组的比较

R lists和pandas序列的比较

  • R中的表明列的名称
  • pandas中表明列的名称

R DataFrames 和pandasDataFrames

  • R中多列的选择
  • pandas多列的选择

列上的算术操作

Aggregation 和GroupBy

R中的聚合

pandas的GroupBy操作

R中和pandas操作符的比较

R %in% 操作符

pandas isin函数

逻辑子集

R中逻辑子集

pandas中逻辑子集

分割和结合

R中的实现

pandas中的实现

用melt Reshaping

R中melt函数

pandas中melt函数

因素/绝对的数据

用cut的R例子

pandas解决方案

汇总

第十一章:机器学习的简明学习

pandas在机器学习中的角色

scikit-learn的安装

通过Anaconda安装

Unix上安装

Windows安装

机器学习介绍

监督性学习 &非监督性学习

用文档分类来说明

  • 监督性学习
  • 非监督性学习

机器学习系统如何学习

机器学习应用-Kaggle Titanic竞赛

Titanic:机器学习从灾难问题中学习

适应问题

数据分析和用pandas预处理

测试数据

处理缺省值

Titanic问题的本地化解决方案

scikit-learn ML/分类器接口

监督性学习算法

在scikit-learn中使用Patsy时建立模型

  通用的代码样版说明

符号逻辑回归

向量机器支持

决策树

随机森林

非监督性学习算法

维度缩减

K-means 集群

汇总

索引

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM