pandas的離散化,面元划分


pd.cut

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
  1. x要分箱的輸入數組,必須是一維的
  2. bins:int或標量序列
    • 若bins是一個int,它定義在x范圍內的等寬單元的數量。然而,在這種情況下,x的范圍在每一側延伸0.1%以包括x的最小值或最大值
    • bins是一個序列,它定義了允許非均勻bin寬度的bin邊緣。在這種情況下不進行x的范圍的擴展
  1. right:bool,可選:決定區間的開閉,如果right == True(默認),則區間[1,2,3,4]指示(1,2],(2,3],(3,4]
  2. labels:array或boolean,默認值為無:用作生成的區間的標簽。必須與生成的區間的長度相同。如果為False,則只返回bin的整數指示符
  3. retbins:bool,可選:是否返回bin。如果bin作為標量給出,則可能有用
  4. precision:int:存儲和顯示容器標簽的精度,默認保留三位小數
  5. include_lowest:bool:第一個間隔是否應該包含左邊
 1 import numpy as np
 2 import pandas as pd
 3 # 使用pandas的cut函數划分年齡組
 4 ages = [20,22,25,27,21,23,37,31,61,45,32]
 5 bins = [18,25,35,60,100]
 6 cats = pd.cut(ages,bins)
 7 print(cats)  # 分類時,當數據不在區間中將變為nan
 8 # 統計落在各個區間的值數量
 9 print(pd.value_counts(cats))
10 # 使用codes為年齡數據進行標號
11 print(cats.codes)
12 # 設置自己想要的面元名稱
13 group_names = ['Youth','YoungAdult','MiddleAged','Senior']
14 print(pd.cut(ages, bins, labels=group_names))
15 # 設置區間數學符號為左閉右開
16 print(pd.cut(ages, bins, right=False))
17 # 向cut傳入面元的數量,則會根據數據的最小值和最大值計算等長面元
18 print(pd.cut(ages, 4, precision=2))  # precision=2表示設置的精度

pd.qcut

與cut類似,它可以根據樣本分位數對數據進行面元划分

pandas.qcut(x, q, labels=None, retbins=False, precision=3)  

 

  1. x:ndarray或Series
  2. q:整數或分位數陣列分位數。十分位數為10,四分位數為4或者,分位數陣列,例如[0,.25,.5,.75,1.]四分位數
  3. labels:array或boolean,默認值為無:用作生成的區間的標簽。必須與生成的區間的長度相同。如果為False,則只返回bin的整數指示符。
  4. retbins:bool,可選:是否返回bin。如果bin作為標量給出,則可能有用。
  5. precision:int:存儲和顯示容器標簽的精度
 1 import numpy as np
 2 import pandas as pd
 3 
 4 # qcut可以根據樣本分位數對數據進行面元划分
 5 # data = np.random.randn(20)  # 正態分布
 6 data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]
 7 cats = pd.qcut(data, 4)  # 按四分位數進行切割
 8 print(cats)
 9 print(pd.value_counts(cats))
10 print("-------------------------------------------------")
11 # 通過指定分位數(0到1之間的數值,包含端點)進行面元划分
12 cats_2 = pd.qcut(data, [0, 0.5, 0.8, 0.9, 1])
13 print(cats_2)
14 print(pd.value_counts(cats_2))

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM