1. 兩種丟失的數據:
- None
- NaN (np.nan)
2. None
1) None是Python自帶的,其類型為python object。None不能參與到任何計算中。
2) None的數據類型: NoneType
3. NaN: np.nan是浮點類型,能參與到計算中。但計算的結果總是NaN。
1) 查看np.nan的數據類型: float
pandas中的None與NaN
1. pandas中None與np.nan都視作np.nan
創建數據:
df = DataFrame(data=np.random.randint(0,100,size=(10,12)))
2. 將某些數組元素賦值為nan
df.iloc[1,1] = None
pandas處理空值操作
3. 刪除對應空行
第一種:
1) 空值檢測
df.isnull() # 為 True 的值為空
2) 找出索引對應的行
df.isnull().any(axis=1)
3) 找出空值行對應的索引
drop_index = df.loc[df.isnull().any(axis=1)].index
4) 刪除擔憂空值的行
df.drop(labels=drop_index,axis=0)
第二種:
1) 找出非空的值所在的行, True的值為非空行
df.notnull().all(axis=1)
2) 刪除空行 (保留非空行)
df.loc[df.notnull().all(axis=1)]
isnull(): True空值 False非空
notnull(): True非空 False空值
如何檢測df中哪些行中存在空行?
df.isnull().any(axis=1): True行中存在空 False行中不存在空
df.notnull().all(axis=1): False行中存在空 True行中不存在空
1. dropna(): 過濾丟失數據
df.dropna(axis=0) # axis默認為行: axis中0表示行,1表示的列
2. fillna(): 填充函數 Series/DataFrame
df.fillna(method='bfill',axis=0, inplace=True)
- pad/ffill # 用前一個非缺失值去填充該缺失值
- backfill/bfill # 用下一個非缺失值填充該缺失值
創建多層列索引
1. 隱式構造
最常見的方法是給DataFrame構造函數的index或者columns參數傳遞兩個或更多的數組
2. 顯示構造pd.MultiIndex.from_product()
import pandas as pd
col=pd.MultiIndex.from_product([['qizhong','qimo'],
['chinese','math']])
df = DataFrame(data=np.random.randint(60,120,size=(2,4)),index=['tom','jay'],
columns=col)
pandas的拼接操作
pandas的拼接分為兩種:
- 級聯:pd.concat, pd.append
- 合並:pd.merge, pd.join
pd.concat()級聯
pandas使用pd.concat函數,與np.concatenate函數類似,只是多了一些參數:
- objs
- axis=0
- keys
- join='outer'/'inner':表示的是級聯的方式,outer會將所有的項進行級聯(忽略匹配和不匹配),而inner只會將匹配的項級聯到一起,不匹配的不級聯
- ignore_index=False
df1: df2:
A B C A E C
a 86 26 66 a 66 69 24
b 84 33 91 e 66 2 89
c 55 40 31 c 55 45 77
1) 匹配級聯
pd.concat((df1,df1),axis=0,join='inner')
A B C
a 86 26 66
b 84 33 91
c 55 40 31
a 86 26 66
b 84 33 91
c 55 40 31
2) 不匹配級聯
不匹配指的是級聯的維度的索引不一致。例如縱向級聯時列索引不一致,橫向級聯時行索引不一致
有2種連接方式:
- 外連接:補NaN(默認模式)
- 內連接:只連接匹配的項
pd.concat((df1,df2),axis=0,join='outer')
A B C E
a 86 26.0 66 NaN
b 84 33.0 91 NaN
c 55 40.0 31 NaN
a 66 NaN 24 69.0
e 66 NaN 89 2.0
c 55 NaN 77 45.0
3) 使用df.append()函數添加
df1.append(df2)
pd.merge()合並
1. merge與concat的區別在於,merge需要依據某一共同的列來進行合並
2. 使用pd.merge()合並時,會自動根據兩者相同column名稱的那一列,作為key來進行合並。
3. 注意每一列元素的順序不要求一致
4. 參數:
- left # 參與合並的左側DataFrame
- right # 參與合並的右側DataFrame
- how # out取並集、inner取交集、left、right
- on # 當有多列相同的時候,可以使用on來指定使用那一列進行合並,on的值為一個列表
- left_on/right_on # 左側/右側 DataFarme中用作連接鍵的列, 指定字段
- left_index/right_index # 將左側/右側 的行索引用作其連接鍵, 默認為False
數據:
df1: df2:
employee group employee hire_date
0 Bob Accounting 0 Lisa 2004
1 Jake Engineering 1 Bob 2008
2 Lisa Engineering 2 Jake 2012
1. 一對一合並
pd.merge(df1,df2,how='outer')
# 結果:
employee group hire_date
0 Bob Accounting 2008
1 Jake Engineering 2012
2 Lisa Engineering 2004
2. 多對一合並
df3 = DataFrame({
'employee':['Lisa','Jake'],
'group':['Accounting','Engineering'],
'hire_date':[2004,2016]})
df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
'supervisor':['Carly','Guido','Steve']
})
pd.merge(df3,df4,how='outer')
# 結果:
employee group hire_date supervisor
0 Lisa Accounting 2004 Carly
1 Jake Engineering 2016 Guido
2 Jake Engineering 2016 Steve
3. 多對多合並
pd.merge(df1,df5,how='left')
# 結果:
employee group supervisor
0 Bob Accounting NaN
1 Jake Engineering Carly
2 Jake Engineering Guido
3 Lisa Engineering Carly
4 Lisa Engineering Guido
1. key的規范化
當列沖突時,即有多個列名稱相同時,需要使用on=來指定哪一個列作為key,配合suffixes指定沖突列名
# 數據:
employee group
0 Jack Accounting
1 Summer Finance
2 Steve Marketing
employee group hire_date
0 Jack Accounting 2003
1 Bob sell 2009
2 Jake ceo 2012
pd.merge(df1,df2,how='outer',on='group')
# 結果:
employee_x group employee_y hire_date
0 Jack Accounting Jack 2003.0
1 Summer Finance NaN NaN
2 Steve Marketing NaN NaN
3 NaN sell Bob 2009.0
4 NaN ceo Jake 2012.0
2. 當兩張表沒有可進行連接的列時,使用left_on和right_on指定merge中左右兩邊的哪一列作為連接的列
# 數據:
employee group hire_date
0 Bobs Accounting 1998
1 Linda Product 2017
2 Bill Marketing 2018
hire_dates name
0 1998 Lisa
1 2016 Bobs
2 2007 Bill
pd.merge(df1,df5,left_on='employee',right_on='name')
# 結果:
employee group hire_date hire_dates name
0 Bobs Accounting 1998 2016 Bobs
1 Bill Marketing 2018 2007 Bill