pandas取dataframe特定行/列



import pandas as pd
data = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})
提取列
單列
data['a']


多列
data[['a', 'b']]
 

 使用 .loc或者 .iloc 提取
第一個參數是行,第二個參數為列

.loc為按標簽提取, .iloc為按位置索引提取

data.loc[:, 'a'] # 等價於data.iloc[:, 0]
data.loc[:, ['a', 'b']] # 等價於data.iloc[:, [0, 1]]


提取行 
提取行的時候,一般只能使用 .loc 和 .iloc 來提取,個人是比較喜歡使用 .loc 

提取某些行
# 提取一行
data.loc[1] # 標簽索引
Out[35]:
a 2
b 5
c 8
Name: 1, dtype: int64

data.iloc[1] # 位置索引
Out[36]:
a 2
b 5
c 8

# 提取多行
data.loc[:1]
Out[37]:
a b c
0 1 4 7
1 2 5 8

data.loc[[0,1]]
Out[38]:
a b c
0 1 4 7
1 2 5 8
行列一起使用

data.loc[0:1, 'b']
Out[40]:
0 4
1 5
按匹配條件提取多行
這種方法是按照某些列符合某種條件,然后提取多行

單條件

 

多條件

# 這兩種方法得到的結果是一致的,推薦使用第二種

# 與 條件 不能使用 and
data[(data['a']<=2) & (data['b']>=5)]
data.loc[(data['a']<=2) & (data['b']>=5)]

# 或 條件 不能使用 or
data[(data['a']<=2) | (data['b']>=5)]
data.loc[(data['a']<=2) | (data['b']>=5)]
 

 

1.按列取、按索引/行取、按特定行列取

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import  numpy as np
from  pandas  import  DataFrame
import  pandas as pd
 
 
df = DataFrame(np.arange( 12 ).reshape(( 3 , 4 )),index = [ 'one' , 'two' , 'thr' ],columns = list ( 'abcd' ))
 
df[ 'a' ] #取a列
df[[ 'a' , 'b' ]] #取a、b列
 
#ix可以用數字索引,也可以用index和column索引
df.ix[ 0 ] #取第0行
df.ix[ 0 : 1 ] #取第0行
df.ix[ 'one' : 'two' ] #取one、two行
df.ix[ 0 : 2 , 0 ] #取第0、1行,第0列
df.ix[ 0 : 1 , 'a' ] #取第0行,a列
df.ix[ 0 : 2 , 'a' : 'c' ] #取第0、1行,abc列
df.ix[ 'one' : 'two' , 'a' : 'c' ] #取one、two行,abc列
df.ix[ 0 : 2 , 0 : 1 ] #取第0、1行,第0列
df.ix[ 0 : 2 , 0 : 2 ] #取第0、1行,第0、1列
 
#loc只能通過index和columns來取,不能用數字
df.loc[ 'one' , 'a' ] #one行,a列
df.loc[ 'one' : 'two' , 'a' ] #one到two行,a列
df.loc[ 'one' : 'two' , 'a' : 'c' ] #one到two行,a到c列
df.loc[ 'one' : 'two' ,[ 'a' , 'c' ]] #one到two行,ac列
 
#iloc只能用數字索引,不能用索引名
df.iloc[ 0 : 2 ] #前2行
df.iloc[ 0 ] #第0行
df.iloc[ 0 : 2 , 0 : 2 ] #0、1行,0、1列
df.iloc[[ 0 , 2 ],[ 1 , 2 , 3 ]] #第0、2行,1、2、3列
 
#iat取某個單值,只能數字索引
df.iat[ 1 , 1 ] #第1行,1列
#at取某個單值,只能index和columns索引
df.at[ 'one' , 'a' ] #one行,a列

2.按條件取行

1
2
3
4
5
6
7
8
9
10
11
12
13
14
選取等於某些值的行記錄 用  = =
df.loc[df[‘column_name’]  = =  some_value]
 
選取某列是否是某一類型的數值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
 
多種條件的選取 用 &
df.loc[(df[‘column’]  = =  some_value) & df[‘other_column’].isin(some_values)]
 
選取不等於某些值的行記錄 用 ! =
df.loc[df[‘column_name’] ! =  some_value]
 
isin返回一系列的數值,如果要選擇不符合這個條件的數值使用~
df.loc[~df[‘column_name’].isin(some_values)]

3.取完之后替換

1
df  =  pd.DataFrame({ "id" : [ 25 , 53 , 15 , 47 , 52 , 54 , 45 , 9 ],  "sex" list ( 'mfmfmfmf' ),  'score' : [ 1.2 2.3 3.4 4.5 , 6.4 , 5.7 , 5.6 , 4.3 ], "name" :[ 'daisy' , 'tony' , 'peter' , 'tommy' , 'ana' , 'david' , 'ken' , 'jim' ]})

將男性(m)替換為1,女性(f)替換為0

方法1:

1
2
df.ix[df[ 'sex' ] = = 'f' , 'sex' ] = 0
df.ix[df[ 'sex' ] = = 'm' , 'sex' ] = 1

注:在上面的代碼中,逗號后面的‘sex’起到固定列名的作用

方法2:

1
2
df.sex[df[ 'sex' ] = = 'm' ] = 1
df.sex[df[ 'sex' ] = = 'f' ] = 0   

4.刪除特定行

1
2
3
4
5
6
7
8
9
# 要刪除列“score”<50的所有行:
df  =  df.drop(df[df.score <  50 ].index)
 
df.drop(df[df.score <  50 ].index, inplace = True )
 
# 多條件情況
# 可以使用操作符: | 只需其中一個成立, & 同時成立, ~ 表示取反,它們要用括號括起來。
# 例如刪除列“score<50 和>20的所有行
df  =  df.drop(df[(df.score <  50 ) & (df.score >  20 )].index)

 

選取等於某些值的行記錄 用 ==
df.loc[df[‘column_name’] == some_value]

選取某列是否是某一類型的數值 用 isin
df.loc[df[‘column_name’].isin(some_values)]

多種條件的選取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]

選取不等於某些值的行記錄 用 !=
df.loc[df[‘column_name’] != some_value]

isin返回一系列的數值,如果要選擇不符合這個條件的數值使用~
df.loc[~df[‘column_name’].isin(some_values)]
1


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM