pandas 之處理丟失數據

本文轉載自查看原文 2019-06-27 10:46 448 數據分析

pandas中的None與NaN
pandas處理空值操作
創建多層列索引
pandas的拼接操作
pd.concat()級聯
pd.merge()合並

1. 兩種丟失的數據:
	- None
	- NaN (np.nan)

2. None
1) None是Python自帶的，其類型為python object。None不能參與到任何計算中。
2) None的數據類型: NoneType

3. NaN: np.nan是浮點類型，能參與到計算中。但計算的結果總是NaN。
1) 查看np.nan的數據類型: float

pandas中的None與NaN

1. pandas中None與np.nan都視作np.nan

創建數據: 
df = DataFrame(data=np.random.randint(0,100,size=(10,12)))

2. 將某些數組元素賦值為nan
df.iloc[1,1] = None

pandas處理空值操作

3. 刪除對應空行

第一種:
1) 空值檢測
df.isnull()       # 為 True 的值為空

2) 找出索引對應的行
df.isnull().any(axis=1)

3) 找出空值行對應的索引
drop_index = df.loc[df.isnull().any(axis=1)].index

4) 刪除擔憂空值的行
df.drop(labels=drop_index,axis=0)

第二種:
1) 找出非空的值所在的行, True的值為非空行
df.notnull().all(axis=1)

2) 刪除空行 (保留非空行)
df.loc[df.notnull().all(axis=1)]

isnull():  True空值  False非空
notnull(): True非空  False空值

如何檢測df中哪些行中存在空行？
	df.isnull().any(axis=1):  True行中存在空    False行中不存在空
	df.notnull().all(axis=1): False行中存在空   True行中不存在空

1. dropna(): 過濾丟失數據
df.dropna(axis=0) # axis默認為行: axis中0表示行，1表示的列

2. fillna(): 填充函數 Series/DataFrame
df.fillna(method='bfill',axis=0, inplace=True)
	- pad/ffill       # 用前一個非缺失值去填充該缺失值
    - backfill/bfill  # 用下一個非缺失值填充該缺失值

創建多層列索引

1.  隱式構造
最常見的方法是給DataFrame構造函數的index或者columns參數傳遞兩個或更多的數組

2. 顯示構造pd.MultiIndex.from_product()
import pandas as pd
col=pd.MultiIndex.from_product([['qizhong','qimo'],
                                ['chinese','math']])
df = DataFrame(data=np.random.randint(60,120,size=(2,4)),index=['tom','jay'],
         columns=col)

pandas的拼接操作

pandas的拼接分為兩種:
	- 級聯：pd.concat, pd.append
	- 合並：pd.merge, pd.join

pd.concat()級聯

pandas使用pd.concat函數，與np.concatenate函數類似，只是多了一些參數：
	- objs
	- axis=0
	- keys
	- join='outer'/'inner':表示的是級聯的方式，outer會將所有的項進行級聯（忽略匹配和不匹配），而inner只會將匹配的項級聯到一起，不匹配的不級聯
	- ignore_index=False

df1:                    df2:

	A	B	C           	A	E	C
a	86	26	66          a	66	69	24
b	84	33	91			e	66	2	89
c	55	40	31			c	55	45	77    	

1) 匹配級聯
pd.concat((df1,df1),axis=0,join='inner')
	A	B	C
a	86	26	66
b	84	33	91
c	55	40	31
a	86	26	66
b	84	33	91
c	55	40	31

2) 不匹配級聯
不匹配指的是級聯的維度的索引不一致。例如縱向級聯時列索引不一致，橫向級聯時行索引不一致
有2種連接方式：
	- 外連接：補NaN（默認模式）
	- 內連接：只連接匹配的項
   
pd.concat((df1,df2),axis=0,join='outer')
	A	B	  C	  E
a	86	26.0  66  NaN
b	84	33.0  91  NaN
c	55	40.0  31  NaN
a	66	NaN	  24  69.0
e	66	NaN	  89  2.0
c	55	NaN	  77  45.0

3) 使用df.append()函數添加
df1.append(df2)

pd.merge()合並

1. merge與concat的區別在於，merge需要依據某一共同的列來進行合並

2. 使用pd.merge()合並時，會自動根據兩者相同column名稱的那一列，作為key來進行合並。

3. 注意每一列元素的順序不要求一致

4. 參數：
	- left    # 參與合並的左側DataFrame 
	- right   # 參與合並的右側DataFrame 
	- how     # out取並集、inner取交集、left、right
	- on      # 當有多列相同的時候，可以使用on來指定使用那一列進行合並，on的值為一個列表
    - left_on/right_on         # 左側/右側 DataFarme中用作連接鍵的列, 指定字段
    - left_index/right_index   # 將左側/右側 的行索引用作其連接鍵, 默認為False

數據:
df1:								df2:
	employee	group					employee	hire_date
0	Bob		Accounting				0	Lisa		2004
1	Jake	Engineering				1	Bob			2008
2	Lisa	Engineering				2	Jake		2012


1. 一對一合並
pd.merge(df1,df2,how='outer')

# 結果:
	employee	group	 hire_date
0	Bob		Accounting	 2008
1	Jake	Engineering	 2012
2	Lisa	Engineering	 2004

2. 多對一合並
df3 = DataFrame({
    'employee':['Lisa','Jake'],
    'group':['Accounting','Engineering'],
    'hire_date':[2004,2016]})

df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
                 'supervisor':['Carly','Guido','Steve']
                })

pd.merge(df3,df4,how='outer')

# 結果:
	employee	group		 hire_date	supervisor
0	Lisa		Accounting	 2004		Carly
1	Jake		Engineering	 2016		Guido
2	Jake		Engineering	 2016		Steve

3. 多對多合並
pd.merge(df1,df5,how='left')
# 結果:
	employee	group	supervisor
0	Bob		Accounting	NaN
1	Jake	Engineering	Carly
2	Jake	Engineering	Guido
3	Lisa	Engineering	Carly
4	Lisa	Engineering	Guido

1. key的規范化
當列沖突時，即有多個列名稱相同時，需要使用on=來指定哪一個列作為key，配合suffixes指定沖突列名

# 數據:
	employee	group
0	Jack	Accounting
1	Summer	Finance
2	Steve	Marketing

	employee	group	hire_date
0	Jack	Accounting	2003
1	Bob		sell		2009
2	Jake	ceo			2012

pd.merge(df1,df2,how='outer',on='group')
# 結果:
	employee_x	group		employee_y	hire_date
0	Jack		Accounting	Jack		2003.0
1	Summer		Finance		NaN			NaN
2	Steve		Marketing	NaN			NaN
3	NaN			sell		Bob			2009.0
4	NaN			ceo			Jake		2012.0

2. 當兩張表沒有可進行連接的列時，使用left_on和right_on指定merge中左右兩邊的哪一列作為連接的列
# 數據:
	employee	group		hire_date
0	Bobs		Accounting	1998
1	Linda		Product		2017
2	Bill		Marketing	2018


	hire_dates	name
0	1998		Lisa
1	2016		Bobs
2	2007		Bill

pd.merge(df1,df5,left_on='employee',right_on='name')
# 結果:
	employee	group		hire_date	hire_dates	name
0	Bobs		Accounting	1998		2016		Bobs
1	Bill		Marketing	2018		2007		Bill

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 SpringBoot之處理JSON數據舉例 pandas之數據處理 Pandas中數據的處理 pandas批量處理數據 filesize返回的是以字節為單位的數據也可以使之處理數字 PCA和白化練習之處理二維數據 python之處理股票數據的.day文件 [Pandas]利用Pandas處理excel數據 SpringMVC之處理流程 pandas處理Excel數據的應用