pandas 基礎用法

本文轉載自查看原文 2018-07-25 00:07 1033 Python模塊包/ 科學計算/ 數據分析/ Pandas/ Python

pandas 是一個基於 Numpy 構建, 強大的數據分析工具包

主要功能

獨特的數據結構 DataFrame, Series
集成時間序列功能
提供豐富的數學運算操作
靈活處理缺失數據

Series 一維數組

Series 是一種類似於一維數組的對象, 由一組數據和一組與之相關的數據標簽(索引)組成

創建方式

pd.Series([4, 7 ,5, -3])
pd.Series([4, 7 ,5, -3], index=['a', 'b', 'c', 'd'])
pd.Series({'a':1, 'b', 2})
pd.Series(0, index=['a', 'b', 'c', 'd'])

# 獲取值數組
sr = pd.Series([4, 7 ,5, -3])
sr.value

# 獲取索引數組
sr = pd.Series([4, 7 ,5, -3])
sr.index

Series 支持array的特性(下標)

從 ndarry 創建 Series
與標量直接運算
兩個 Series 運算
索引
切片
通用函數 np.abs(sr)
布爾值過濾 sr[sr>0]

Series 支持字典的特性(標簽)

從字典創建 Series Series(dict)
in 運算
鍵索引

整數索引

如果索引是整數, 則根據下標取值時總是面向標簽的.
此時可通過 loc方法(將索引解釋為標簽)和iloc方法(將索引解釋為下標)

Series 數據計算

sr1 = pd.Series([12,23,34], index=['c', 'a', 'd'])
sr2 = pd.Series([11,20,10], index=['d', 'c', 'a'])
print(sr1 + sr2)
# 相關計算方法 add, sub, div, mul

pandas 在進行兩個 Series 對象運算時, 會按索引進行對齊然后計算.

數據對齊

若兩個 Series 對象的索引不完全相同, 則結果的索引是兩個操作數索引的並集. 如果只有一個對象在某索引下有值, 則結果中該索引的值為NaN.

缺失數據處理辦法

sr1.add(sr2, fill_value=0) 填充缺失的值
dropna() 過濾掉值為NaN的行
fillna() 填充缺失數據
isnull() 返回布爾數組, 缺失值對應為True
notnull() 返回buer數據, 缺失值對應為False

# 過濾缺失數據
sr.dropna() 
sr[data.notnull()]

DataFrame

DataFrame 是一個表格型的數據結構, 含有一組有序的列. 可以看做是 Series 組成的字典, 並且公用一個索引.

創建 DataFrame 的方法有很多種

# 手動創建
pd.DataFrame({'one':[1,2,3,4], 'two':[4,3,2,1]})
pd.DataFrame({'one':pd.Series([1,2,3], index=['a','b', 'c']), 'two':pd.Series([1,2,3,4], index=['a','b','c','d'])

# 從csv文件讀取與寫入
df.read_csv('filename.csv')
df.to_csv()

常用屬性

index 獲取索引
T 轉置
columns 獲取列索引
values 獲取值數組
describe() 獲取快速統計

索引和切片

DataFrame 是一個二維數據類型, 所以有行索引和列索引, 可以通過標簽和位置兩種方法進行索引和切片

loc 索引方法和 iloc 下標方法
- 使用方法: 逗號隔開, 前面是行索引, 后面是列索引
- 行/列索引部分可以是常規索引, 切片, 布爾值索引, 花式索引任意搭配

數據對齊與缺失數據

DataFrame 對象在運算時, 同樣會進行數據對齊, 其行索引和列索引分別對齊

處理缺失數據的相關方法

dropna(axis=0, where='any', ...)
fillna()
isnull()
notnull()

pandas 常用方法

mean(axis=0, skipna=False) 對列(行)求平均值
sum(axis=1) 對列(行)求和
sort_index(axis, ..., ascending) 對列(行)索引排序
sort_values(by, axis, ascending) 按某一列(行)的值排序
apply(func, axis=0) 將自定義函數應用在各行或各列上, func可返回標量或Series
NumPy 的通用函數同樣適用於pandas
applymap(func) 將函數應用在 DataFrame 各個元素上
map(func) 將函數應用在 Series 各個元素上

時間處理

pandas基於dateutil來處理時間對象

dateutil.parser.parse() dateutil 原生時間處理方法
pd.to_datetime() pandas 成組處理時間對象
data_range() 產生時間對象數組
- start 開始時間
- end 結束時間
- periods 時間長度
- freq 時間頻率, 默認為'D', 可選為H(our), W(eek), B(usiness), S(emi-)M(onth), (min)T(es), S(econd), A(year)

時間序列

時間序列是以時間對象為索引的Series或DataFrame, datetime對象作為索引時是存儲在DatetimeIndex對象中的.

時間序列的特色功能:

傳入"年"或"年月"作為切片方式
傳入日期范圍作為切片方式
豐富的函數支持: resample(), strftime(), ...

文件處理

read_csv 和 read_table 函數
- sep 制定分隔符, 可用正則表達式如'\s+'
- header = None 指定文件無列名
- name 指定列名
- index_col 指定某列為索引
- skip_row 指定跳過某些行
- na_values 指定某些字符串表示缺失值
- parse_dates 指定某些列是否被解析為日期, 類型為布爾值或列表
to_csv 函數
- sep 指定文件函數
- na_rep 指定缺失值轉換的字符串, 默認為空字符串
- header=False 不輸出列名一行
- index=False 不輸出行索引一列
- columns 指定輸出的列, 傳入列表

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 numpy和pandas用法 pandas的DataFrame用法 pandas用法小結 pandas用法大全 Pandas之groupby( )用法筆記 pandas基礎-Python3 pandas中join和merge的用法 Python3 pandas用法大全 pandas ExcelWriter用法及代碼示例 Pandas 基礎(14) - DatetimeIndex and Resample