Pandas數據結構和索引操作


什么是Pandas?

Pandas的名稱來自於面板數據(panel data)和Python數據分析(data analysis)。

Pandas是一個強大的分析結構化數據的工具集,基於NumPy構建,提供了 高級數據結構數據操作工具,它是使Python成為強大而高效的數據分析環境的重要因素之一。

  • 一個強大的分析和操作大型結構化數據集所需的工具集

  • 基礎是NumPy,提供了高性能矩陣的運算

  • 提供了大量能夠快速便捷地處理數據的函數和方法

  • 應用於數據挖掘,數據分析

  • 提供數據清洗功能

http://pandas.pydata.org

Pandas的數據結構

import pandas as pd 

Pandas有兩個最主要也是最重要的數據結構: SeriesDataFrame

Series

Series是一種類似於一維數組的 對象,由一組數據(各種NumPy數據類型)以及一組與之對應的索引(數據標簽)組成。

  • 類似一維數組的對象
  • 由數據和索引組成
    • 索引(index)在左,數據(values)在右
    • 索引是自動創建的

1. 通過list構建Series

ser_obj = pd.Series(range(10))

# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) print(ser_obj.head(3)) print(ser_obj) print(type(ser_obj))

效果:

0    10
1    11
2    12 dtype: int64 0 10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19 dtype: int64 <class 'pandas.core.series.Series'>

2. 獲取數據和索引

ser_obj.index 和 ser_obj.values

# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) # 獲取數據
print(ser_obj.values) # 獲取索引
print(ser_obj.index)

效果:

[10 11 12 13 14 15 16 17 18 19] RangeIndex(start=0, stop=10, step=1)

3. 通過索引獲取數據

ser_obj[idx]

# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) #通過索引獲取數據
print(ser_obj[0]) print(ser_obj[8])

效果:

10
18

4. 索引與數據的對應關系不被運算結果影響

# 通過list構建Series
import pandas as pd ser_obj = pd.Series(range(10, 20)) # 索引與數據的對應關系不被運算結果影響
print(ser_obj * 2) print(ser_obj > 15)

效果:

0    20
1    22
2    24
3    26
4    28
5    30
6    32
7    34
8    36
9    38 dtype: int64 0 False 1 False 2 False 3 False 4 False 5 False 6 True 7 True 8 True 9 True dtype: bool

5. 通過dict構建Series

# 通過list構建Series
import pandas as pd # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data) print(ser_obj2.head()) print(ser_obj2.index)

效果:

2001    17.8
2002    20.1
2003    16.5 dtype: float64 Int64Index([2001, 2002, 2003], dtype='int64')

name屬性

對象名:ser_obj.name

對象索引名:ser_obj.index.name

# 通過list構建Series
import pandas as pd # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data) # name屬性
ser_obj2.name = 'temp' ser_obj2.index.name = 'year'
print(ser_obj2.head())

效果:

year 2001    17.8
2002    20.1
2003    16.5 Name: temp, dtype: float64

DataFrame

DataFrame是一個表格型的數據結構,它含有一組有序的列,每列可以是不同類型的值。DataFrame既有行索引也有列索引,它可以被看做是由Series組成的字典(共用同一個索引),數據是以二維結構存放的。

  • 類似多維數組/表格數據 (如,excel, R中的data.frame)
  • 每列數據可以是不同的類型
  • 索引包括列索引和行索引

1. 通過ndarray構建DataFrame

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd array = np.random.randn(5,4) print(array) print("----------") df_obj = pd.DataFrame(array) print(df_obj.head())

效果:

[[ 0.44137761  0.13408736 -1.59408949 -0.1010183 ] [-0.31168161  0.24322197 -0.1602419  -1.42392738] [ 1.57426004  0.31490818 -0.22182099 -0.67538973] [ 0.22735072  0.02080081 -0.74327977  0.89156492] [-0.15163684 -0.72034151  0.07189318  0.8673076 ]] ---------- 0 1         2         3 0 0.441378  0.134087 -1.594089 -0.101018
1 -0.311682  0.243222 -0.160242 -1.423927
2  1.574260  0.314908 -0.221821 -0.675390
3  0.227351  0.020801 -0.743280  0.891565
4 -0.151637 -0.720342  0.071893  0.867308

2. 通過dict構建DataFrame

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } #print dict_data
df_obj2 = pd.DataFrame(dict_data) print(df_obj2)

效果:

 A B C D E F 0 1 2019-12-10  1.0  3 Python loaderman 1  1 2019-12-10  1.0  3 Java loaderman 2  1 2019-12-10  1.0  3  Android++ loaderman 3  1 2019-12-10  1.0  3          C  loaderman

3. 通過列索引獲取列數據(Series類型)

df_obj[col_idx] 或 df_obj.col_idx

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } #print dict_data
df_obj2 = pd.DataFrame(dict_data) print(df_obj2) # 通過列索引獲取列數據
print(df_obj2['A']) print(type(df_obj2['A'])) print(df_obj2.A)

效果:

 A B C D E F 0 1 2019-12-10  1.0  3 Python loaderman 1  1 2019-12-10  1.0  3 Java loaderman 2  1 2019-12-10  1.0  3  Android++ loaderman 3  1 2019-12-10  1.0  3 C loaderman 0 1
1    1
2    1
3    1 Name: A, dtype: int64 <class 'pandas.core.series.Series'> 0 1
1    1
2    1
3    1 Name: A, dtype: int64

4. 增加列數據

df_obj[new_col_idx] = data

類似Python的 dict添加key-value

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)),dtype='float32'), 'D': np.array([3] * 4,dtype='int32'), 'E': ["Python","Java","Android++","C"], 'F': 'loaderman' } df_obj2 = pd.DataFrame(dict_data) # 增加列
df_obj2['G'] = df_obj2['D'] + 4
print(df_obj2.head())

效果:

 A B C D E F G 0 1 2019-12-10  1.0  3     Python  loaderman  7
1  1 2019-12-10  1.0  3       Java  loaderman  7
2  1 2019-12-10  1.0  3  Android++  loaderman  7
3  1 2019-12-10  1.0  3          C  loaderman  7

5. 刪除列

del df_obj[col_idx]

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E': ["Python", "Java", "Android++", "C"], 'F': 'loaderman'} df_obj2 = pd.DataFrame(dict_data) # 增加列
df_obj2['G'] = df_obj2['D'] + 4
print(df_obj2.head()) # 刪除列
del (df_obj2['G']) print(df_obj2.head())

效果:

 A B C D E F G 0 1 2019-12-10  1.0  3     Python  loaderman  7
1  1 2019-12-10  1.0  3       Java  loaderman  7
2  1 2019-12-10  1.0  3  Android++  loaderman  7
3  1 2019-12-10  1.0  3          C  loaderman  7 A B C D E F 0 1 2019-12-10  1.0  3 Python loaderman 1  1 2019-12-10  1.0  3 Java loaderman 2  1 2019-12-10  1.0  3  Android++ loaderman 3  1 2019-12-10  1.0  3          C  loaderman

Pandas的索引操作

索引對象Index

1. Series和DataFrame中的索引都是Index對象

import numpy as np # 通過ndarray構建DataFrame
import pandas as pd # 通過dict構建DataFrame
dict_data = {'A': 1, 'B': pd.Timestamp('20191210'), 'C': pd.Series(1, index=list(range(4)), dtype='float32'), 'D': np.array([3] * 4, dtype='int32'), 'E': ["Python", "Java", "Android++", "C"], 'F': 'loaderman'} df_obj2 = pd.DataFrame(dict_data) # 通過dict構建Series
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj = pd.Series(year_data) print(type(ser_obj.index)) print(type(df_obj2.index)) print(df_obj2.index)

效果:

<class 'pandas.core.indexes.numeric.Int64Index'>
<class 'pandas.core.indexes.numeric.Int64Index'> Int64Index([0, 1, 2, 3], dtype='int64')

2. 索引對象不可變,保證了數據的安全

# 索引對象不可變
df_obj2.index[0] = 2

效果:

raise TypeError("Index does not support mutable operations") TypeError: Index does not support mutable operations

常見的Index種類

  • Index,索引
  • Int64Index,整數索引
  • MultiIndex,層級索引
  • DatetimeIndex,時間戳類型

Series索引

1. index 指定行索引名

import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) print(ser_obj.head())

效果:

a 0 b 1 c 2 d 3 e 4 dtype: int64

2. 行索引

ser_obj[‘label’], ser_obj[pos]

import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 行索引
print(ser_obj['b']) print(ser_obj[2])

效果

1
2

3. 切片索引

ser_obj[2:4], ser_obj[‘label1’: ’label3’]

注意,按索引名切片操作時,是包含終止索引的。

import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 切片索引
print(ser_obj[1:3]) print(ser_obj['b':'d'])

效果:

b    1 c 2 dtype: int64 b 1 c 2 d 3 dtype: int64

4. 不連續索引

ser_obj[[‘label1’, ’label2’, ‘label3’]]

import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 不連續索引
print(ser_obj[[0, 2, 4]]) print(ser_obj[['a', 'e']])

效果:

a 0 c 2 e 4 dtype: int64 a 0 e 4 dtype: int64

5. 布爾索引

import pandas as pd ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) # 布爾索引
ser_bool = ser_obj > 2
print(ser_bool) print(ser_obj[ser_bool]) print(ser_obj[ser_obj > 2])

效果

a False b False c False d True e True dtype: bool d 3 e 4 dtype: int64 d 3 e 4 dtype: int64

DataFrame索引

1. columns 指定列索引名

import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd']) print(df_obj.head())

效果

 a b c d 0 0.768207 -0.828292  0.050348 -0.737844
1 -1.532876  0.261017  1.191702  0.661960
2  0.736359  1.902244 -0.475106  0.554105
3  0.096775  0.487364 -0.875836 -1.011496
4 -1.723229  0.483649 -0.139809  1.968255

2. 列索引

df_obj[[‘label’]]

import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 列索引
print(df_obj['a'])  # 返回Series類型
print(df_obj[['a']])  # 返回DataFrame類型
print(type(df_obj[['a']]))  # 返回DataFrame類型

效果

0    1.060989
1   -1.693514
2   -0.315455
3    0.679558
4    1.108019 Name: a, dtype: float64 a 0 1.060989
1 -1.693514
2 -0.315455
3  0.679558
4  1.108019
<class 'pandas.core.frame.DataFrame'>

3. 不連續索引

df_obj[[‘label1’, ‘label2’]]

import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 不連續索引
print(df_obj[['a','c']])

效果:

 a c 0 -0.059479 -0.639038
1  1.222235 -0.508763
2 -1.030170  1.424272
3  0.116193  1.714186
4  0.900865  1.545013

高級索引:標簽、位置和混合

Pandas的高級索引有3種

1. loc 標簽索引

DataFrame 不能直接切片,可以通過loc來做切片

loc是基於標簽名的索引,也就是我們自定義的索引名

import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 通過list構建Series
ser_data = {"a": 17.8, "b": 20.1, "c": 16.5,"d":12} ser_obj = pd.Series(ser_data) # 標簽索引 loc # Series
print(ser_obj['b':'d']) print(ser_obj.loc['b':'d']) # DataFrame
print(df_obj['a']) # 第一個參數索引行,第二個參數是列
print(df_obj.loc[0:2, 'a'])

效果:

b    20.1 c 16.5 d 12.0 dtype: float64 b 20.1 c 16.5 d 12.0 dtype: float64 0 1.110840
1   -0.629939
2    0.012856
3    2.038906
4   -2.497636 Name: a, dtype: float64 0 1.110840
1   -0.629939
2    0.012856 Name: a, dtype: float64

2. iloc 位置索引

作用和loc一樣,不過是基於索引編號來索引

 

import pandas as pd import numpy as np df_obj = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd']) # 通過list構建Series
ser_data = {"a": 17.8, "b": 20.1, "c": 16.5,"d":12} ser_obj = pd.Series(ser_data) # 整型位置索引 iloc # Series
print(ser_obj[1:3]) print(ser_obj.iloc[1:3]) # DataFrame
print(df_obj.iloc[0:2, 0]) # 注意和df_obj.loc[0:2, 'a']的區別

效果:

b    20.1 c 16.5 dtype: float64 b 20.1 c 16.5 dtype: float64 0 -1.554571
1   -0.307958 Name: a, dtype: float64

3. ix 標簽與位置混合索引

ix是以上二者的綜合,既可以使用索引編號,又可以使用自定義索引,要視情況不同來使用,

如果索引既有數字又有英文,那么這種方式是不建議使用的,容易導致定位的混亂。

目前顯示已過時不再推薦使用!

注意

DataFrame索引操作,可將其看作ndarray的索引操作

標簽的切片索引是包含末尾位置的

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM