什么是Pandas?
Pandas的名稱來自於面板數據(panel data)和Python數據分析(data analysis)。
Pandas是一個強大的分析結構化數據的工具集,基於NumPy構建,提供了 高級數據結構 和 數據操作工具,它是使Python成為強大而高效的數據分析環境的重要因素之一。
-
一個強大的分析和操作大型結構化數據集所需的工具集
-
基礎是NumPy,提供了高性能矩陣的運算
-
提供了大量能夠快速便捷地處理數據的函數和方法
-
應用於數據挖掘,數據分析
-
提供數據清洗功能
Pandas的數據結構
import pandas as pd
Pandas有兩個最主要也是最重要的數據結構: Series 和 DataFrame
Series
Series是一種類似於一維數組的 對象,由一組數據(各種NumPy數據類型)以及一組與之對應的索引(數據標簽)組成。
- 類似一維數組的對象
- 由數據和索引組成
- 索引(index)在左,數據(values)在右
- 索引是自動創建的
1. 通過list構建Series
ser_obj = pd.Series(range(10))
# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) print(ser_obj.head(3)) print(ser_obj) print(type(ser_obj))
效果:
0 10
1 11
2 12 dtype: int64 0 10
1 11
2 12
3 13
4 14
5 15
6 16
7 17
8 18
9 19 dtype: int64 <class 'pandas.core.series.Series'>
2. 獲取數據和索引
ser_obj.index 和 ser_obj.values
# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) # 獲取數據
print(ser_obj.values) # 獲取索引
print(ser_obj.index)
效果:
[10 11 12 13 14 15 16 17 18 19] RangeIndex(start=0, stop=10, step=1)
3. 通過索引獲取數據
ser_obj[idx]
# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) #通過索引獲取數據
print(ser_obj[0]) print(ser_obj[8])
效果:
10
18
4. 索引與數據的對應關系不被運算結果影響
# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) # 索引與數據的對應關系不被運算結果影響
print(ser_obj * 2) print(ser_obj > 15)
效果:
0 20
1 22
2 24
3 26
4 28
5 30
6 32
7 34
8 36
9 38 dtype: int64 0 False 1 False 2 False 3 False 4 False 5 False 6 True 7 True 8 True 9 True dtype: bool
5. 通過dict構建Series
# 通過list構建Series
import pandas as pd # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data) print(ser_obj2.head()) print(ser_obj2.index)
效果:
2001 17.8
2002 20.1
2003 16.5 dtype: float64 Int64Index([2001, 2002, 2003], dtype='int64')
name屬性
對象名:ser_obj.name
對象索引名:ser_obj.index.name
# 通過list構建Series
import pandas as pd # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data) # name屬性
ser_obj2.name = 'temp' ser_obj2.index.name = 'year'
print(ser_obj2.head())
效果:
year 2001 17.8
2002 20.1
2003 16.5 Name: temp, dtype: float64
DataFrame
DataFrame是一個表格型的數據結構,它含有一組有序的列,每列可以是不同類型的值。DataFrame既有行索引也有列索引,它可以被看做是由Series組成的字典(共用同一個索引),數據是以二維結構存放的。
- 類似多維數組/表格數據 (如,excel, R中的data.frame)
- 每列數據可以是不同的類型
- 索引包括列索引和行索引
1. 通過ndarray構建DataFrame
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd array = np.random.randn(5,4) print(array) print("----------") df_obj = pd.DataFrame(array) print(df_obj.head())
效果:
[[ 0.44137761 0.13408736 -1.59408949 -0.1010183 ] [-0.31168161 0.24322197 -0.1602419 -1.42392738] [ 1.57426004 0.31490818 -0.22182099 -0.67538973] [ 0.22735072 0.02080081 -0.74327977 0.89156492] [-0.15163684 -0.72034151 0.07189318 0.8673076 ]] ---------- 0 1 2 3 0 0.441378 0.134087 -1.594089 -0.101018
1 -0.311682 0.243222 -0.160242 -1.423927
2 1.574260 0.314908 -0.221821 -0.675390
3 0.227351 0.020801 -0.743280 0.891565
4 -0.151637 -0.720342 0.071893 0.867308
2. 通過dict構建DataFrame
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } #print dict_data
df_obj2 = pd.DataFrame(dict_data) print(df_obj2)
效果:
A B C D E F 0 1 2019-12-10 1.0 3 Python loaderman 1 1 2019-12-10 1.0 3 Java loaderman 2 1 2019-12-10 1.0 3 Android++ loaderman 3 1 2019-12-10 1.0 3 C loaderman
3. 通過列索引獲取列數據(Series類型)
df_obj[col_idx] 或 df_obj.col_idx
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } #print dict_data
df_obj2 = pd.DataFrame(dict_data) print(df_obj2) # 通過列索引獲取列數據
print(df_obj2['A']) print(type(df_obj2['A'])) print(df_obj2.A)
效果:
A B C D E F 0 1 2019-12-10 1.0 3 Python loaderman 1 1 2019-12-10 1.0 3 Java loaderman 2 1 2019-12-10 1.0 3 Android++ loaderman 3 1 2019-12-10 1.0 3 C loaderman 0 1
1 1
2 1
3 1 Name: A, dtype: int64 <class 'pandas.core.series.Series'> 0 1
1 1
2 1
3 1 Name: A, dtype: int64
4. 增加列數據
df_obj[new_col_idx] = data
類似Python的 dict添加key-value
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } df_obj2 = pd.DataFrame(dict_data) # 增加列
df_obj2['G'] = df_obj2['D'] + 4
print(df_obj2.head())
效果:
A B C D E F G 0 1 2019-12-10 1.0 3 Python loaderman 7
1 1 2019-12-10 1.0 3 Java loaderman 7
2 1 2019-12-10 1.0 3 Android++ loaderman 7
3 1 2019-12-10 1.0 3 C loaderman 7
5. 刪除列
del df_obj[col_idx]
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E': ["Python", "Java", "Android++", "C"], 'F': 'loaderman'} df_obj2 = pd.DataFrame(dict_data) # 增加列
df_obj2['G'] = df_obj2['D'] + 4
print(df_obj2.head()) # 刪除列
del (df_obj2['G']) print(df_obj2.head())
效果:
A B C D E F G 0 1 2019-12-10 1.0 3 Python loaderman 7
1 1 2019-12-10 1.0 3 Java loaderman 7
2 1 2019-12-10 1.0 3 Android++ loaderman 7
3 1 2019-12-10 1.0 3 C loaderman 7 A B C D E F 0 1 2019-12-10 1.0 3 Python loaderman 1 1 2019-12-10 1.0 3 Java loaderman 2 1 2019-12-10 1.0 3 Android++ loaderman 3 1 2019-12-10 1.0 3 C loaderman
Pandas的索引操作
索引對象Index
1. Series和DataFrame中的索引都是Index對象
import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E': ["Python", "Java", "Android++", "C"], 'F': 'loaderman'} df_obj2 = pd.DataFrame(dict_data) # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj = pd.Series(year_data) print(type(ser_obj.index)) print(type(df_obj2.index)) print(df_obj2.index)
效果:
<class 'pandas.core.indexes.numeric.Int64Index'>
<class 'pandas.core.indexes.numeric.Int64Index'> Int64Index([0, 1, 2, 3], dtype='int64')
2. 索引對象不可變,保證了數據的安全
# 索引對象不可變
df_obj2.index[0] = 2
效果:
raise TypeError("Index does not support mutable operations") TypeError: Index does not support mutable operations
常見的Index種類
- Index,索引
- Int64Index,整數索引
- MultiIndex,層級索引
- DatetimeIndex,時間戳類型
Series索引
1. index 指定行索引名
import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) print(ser_obj.head())
效果:
a 0 b 1 c 2 d 3 e 4 dtype: int64
2. 行索引
ser_obj[‘label’], ser_obj[pos]
import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 行索引
print(ser_obj['b']) print(ser_obj[2])
效果
1
2
3. 切片索引
ser_obj[2:4], ser_obj[‘label1’: ’label3’]
注意,按索引名切片操作時,是包含終止索引的。
import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 切片索引
print(ser_obj[1:3]) print(ser_obj['b':'d'])
效果:
b 1 c 2 dtype: int64 b 1 c 2 d 3 dtype: int64
4. 不連續索引
ser_obj[[‘label1’, ’label2’, ‘label3’]]
import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 不連續索引
print(ser_obj[[0, 2, 4]]) print(ser_obj[['a', 'e']])
效果:
a 0 c 2 e 4 dtype: int64 a 0 e 4 dtype: int64
5. 布爾索引
import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 布爾索引
ser_bool = ser_obj > 2
print(ser_bool) print(ser_obj[ser_bool]) print(ser_obj[ser_obj > 2])
效果
a False b False c False d True e True dtype: bool d 3 e 4 dtype: int64 d 3 e 4 dtype: int64
DataFrame索引
1. columns 指定列索引名
import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd']) print(df_obj.head())
效果
a b c d 0 0.768207 -0.828292 0.050348 -0.737844
1 -1.532876 0.261017 1.191702 0.661960
2 0.736359 1.902244 -0.475106 0.554105
3 0.096775 0.487364 -0.875836 -1.011496
4 -1.723229 0.483649 -0.139809 1.968255
2. 列索引
df_obj[[‘label’]]
import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 列索引
print(df_obj['a']) # 返回Series類型
print(df_obj[['a']]) # 返回DataFrame類型
print(type(df_obj[['a']])) # 返回DataFrame類型
效果
0 1.060989
1 -1.693514
2 -0.315455
3 0.679558
4 1.108019 Name: a, dtype: float64 a 0 1.060989
1 -1.693514
2 -0.315455
3 0.679558
4 1.108019
<class 'pandas.core.frame.DataFrame'>
3. 不連續索引
df_obj[[‘label1’, ‘label2’]]
import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 不連續索引
print(df_obj[['a','c']])
效果:
a c 0 -0.059479 -0.639038
1 1.222235 -0.508763
2 -1.030170 1.424272
3 0.116193 1.714186
4 0.900865 1.545013
高級索引:標簽、位置和混合
Pandas的高級索引有3種
1. loc 標簽索引
DataFrame 不能直接切片,可以通過loc來做切片
loc是基於標簽名的索引,也就是我們自定義的索引名
import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 通過list構建Series
ser_data = {"a": 17.8, "b": 20.1, "c": 16.5,"d":12} ser_obj = pd.Series(ser_data) # 標簽索引 loc # Series
print(ser_obj['b':'d']) print(ser_obj.loc['b':'d']) # DataFrame
print(df_obj['a']) # 第一個參數索引行,第二個參數是列
print(df_obj.loc[0:2, 'a'])
效果:
b 20.1 c 16.5 d 12.0 dtype: float64 b 20.1 c 16.5 d 12.0 dtype: float64 0 1.110840
1 -0.629939
2 0.012856
3 2.038906
4 -2.497636 Name: a, dtype: float64 0 1.110840
1 -0.629939
2 0.012856 Name: a, dtype: float64
2. iloc 位置索引
作用和loc一樣,不過是基於索引編號來索引
import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 通過list構建Series
ser_data = {"a": 17.8, "b": 20.1, "c": 16.5,"d":12} ser_obj = pd.Series(ser_data) # 整型位置索引 iloc # Series
print(ser_obj[1:3]) print(ser_obj.iloc[1:3]) # DataFrame
print(df_obj.iloc[0:2, 0]) # 注意和df_obj.loc[0:2, 'a']的區別
效果:
b 20.1 c 16.5 dtype: float64 b 20.1 c 16.5 dtype: float64 0 -1.554571
1 -0.307958 Name: a, dtype: float64
3. ix 標簽與位置混合索引
ix是以上二者的綜合,既可以使用索引編號,又可以使用自定義索引,要視情況不同來使用,
如果索引既有數字又有英文,那么這種方式是不建議使用的,容易導致定位的混亂。
目前顯示已過時不再推薦使用!
注意
DataFrame索引操作,可將其看作ndarray的索引操作
標簽的切片索引是包含末尾位置的