import pandas as pd
data = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})
提取列
單列
data['a']
多列
data[['a', 'b']]
使用 .loc或者 .iloc 提取
第一個參數是行,第二個參數為列
.loc為按標簽提取, .iloc為按位置索引提取
data.loc[:, 'a'] # 等價於data.iloc[:, 0]
data.loc[:, ['a', 'b']] # 等價於data.iloc[:, [0, 1]]
提取行
提取行的時候,一般只能使用 .loc 和 .iloc 來提取,個人是比較喜歡使用 .loc
提取某些行
# 提取一行
data.loc[1] # 標簽索引
Out[35]:
a 2
b 5
c 8
Name: 1, dtype: int64
data.iloc[1] # 位置索引
Out[36]:
a 2
b 5
c 8
# 提取多行
data.loc[:1]
Out[37]:
a b c
0 1 4 7
1 2 5 8
data.loc[[0,1]]
Out[38]:
a b c
0 1 4 7
1 2 5 8
行列一起使用
data.loc[0:1, 'b']
Out[40]:
0 4
1 5
按匹配條件提取多行
這種方法是按照某些列符合某種條件,然后提取多行
單條件
多條件
# 這兩種方法得到的結果是一致的,推薦使用第二種
# 與 條件 不能使用 and
data[(data['a']<=2) & (data['b']>=5)]
data.loc[(data['a']<=2) & (data['b']>=5)]
# 或 條件 不能使用 or
data[(data['a']<=2) | (data['b']>=5)]
data.loc[(data['a']<=2) | (data['b']>=5)]
1.按列取、按索引/行取、按特定行列取
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
import
numpy as np
from
pandas
import
DataFrame
import
pandas as pd
df
=
DataFrame(np.arange(
12
).reshape((
3
,
4
)),index
=
[
'one'
,
'two'
,
'thr'
],columns
=
list
(
'abcd'
))
df[
'a'
]
#取a列
df[[
'a'
,
'b'
]]
#取a、b列
#ix可以用數字索引,也可以用index和column索引
df.ix[
0
]
#取第0行
df.ix[
0
:
1
]
#取第0行
df.ix[
'one'
:
'two'
]
#取one、two行
df.ix[
0
:
2
,
0
]
#取第0、1行,第0列
df.ix[
0
:
1
,
'a'
]
#取第0行,a列
df.ix[
0
:
2
,
'a'
:
'c'
]
#取第0、1行,abc列
df.ix[
'one'
:
'two'
,
'a'
:
'c'
]
#取one、two行,abc列
df.ix[
0
:
2
,
0
:
1
]
#取第0、1行,第0列
df.ix[
0
:
2
,
0
:
2
]
#取第0、1行,第0、1列
#loc只能通過index和columns來取,不能用數字
df.loc[
'one'
,
'a'
]
#one行,a列
df.loc[
'one'
:
'two'
,
'a'
]
#one到two行,a列
df.loc[
'one'
:
'two'
,
'a'
:
'c'
]
#one到two行,a到c列
df.loc[
'one'
:
'two'
,[
'a'
,
'c'
]]
#one到two行,ac列
#iloc只能用數字索引,不能用索引名
df.iloc[
0
:
2
]
#前2行
df.iloc[
0
]
#第0行
df.iloc[
0
:
2
,
0
:
2
]
#0、1行,0、1列
df.iloc[[
0
,
2
],[
1
,
2
,
3
]]
#第0、2行,1、2、3列
#iat取某個單值,只能數字索引
df.iat[
1
,
1
]
#第1行,1列
#at取某個單值,只能index和columns索引
df.at[
'one'
,
'a'
]
#one行,a列
|
2.按條件取行
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
選取等於某些值的行記錄 用
=
=
df.loc[df[‘column_name’]
=
=
some_value]
選取某列是否是某一類型的數值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
多種條件的選取 用 &
df.loc[(df[‘column’]
=
=
some_value) & df[‘other_column’].isin(some_values)]
選取不等於某些值的行記錄 用 !
=
df.loc[df[‘column_name’] !
=
some_value]
isin返回一系列的數值,如果要選擇不符合這個條件的數值使用~
df.loc[~df[‘column_name’].isin(some_values)]
|
3.取完之后替換
1
|
df
=
pd.DataFrame({
"id"
: [
25
,
53
,
15
,
47
,
52
,
54
,
45
,
9
],
"sex"
:
list
(
'mfmfmfmf'
),
'score'
: [
1.2
,
2.3
,
3.4
,
4.5
,
6.4
,
5.7
,
5.6
,
4.3
],
"name"
:[
'daisy'
,
'tony'
,
'peter'
,
'tommy'
,
'ana'
,
'david'
,
'ken'
,
'jim'
]})
|
將男性(m)替換為1,女性(f)替換為0
方法1:
1
2
|
df.ix[df[
'sex'
]
=
=
'f'
,
'sex'
]
=
0
df.ix[df[
'sex'
]
=
=
'm'
,
'sex'
]
=
1
|
注:在上面的代碼中,逗號后面的‘sex’起到固定列名的作用
方法2:
1
2
|
df.sex[df[
'sex'
]
=
=
'm'
]
=
1
df.sex[df[
'sex'
]
=
=
'f'
]
=
0
|
4.刪除特定行
1
2
3
4
5
6
7
8
9
|
# 要刪除列“score”<50的所有行:
df
=
df.drop(df[df.score <
50
].index)
df.drop(df[df.score <
50
].index, inplace
=
True
)
# 多條件情況
# 可以使用操作符: | 只需其中一個成立, & 同時成立, ~ 表示取反,它們要用括號括起來。
# 例如刪除列“score<50 和>20的所有行
df
=
df.drop(df[(df.score <
50
) & (df.score >
20
)].index)
|
選取等於某些值的行記錄 用 ==
df.loc[df[‘column_name’] == some_value]
選取某列是否是某一類型的數值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
多種條件的選取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]
選取不等於某些值的行記錄 用 !=
df.loc[df[‘column_name’] != some_value]
isin返回一系列的數值,如果要選擇不符合這個條件的數值使用~
df.loc[~df[‘column_name’].isin(some_values)]
1