pandas+numpy 对df数据中的某列进行等分分桶操作


import numpy as np
import pandas as pd

left = pd.DataFrame({'A': [1., np.nan, 3., 4.],
                    'B': [1., 2., 3., 4.]})

d = np.nanpercentile(left["B"], np.linspace(0, 100, 5))
print(np.linspace(0, 100, 5))
print(d)
print("*" * 100)
print(type(d))
print("*" * 100)
print(pd.cut(left["B"], d))
print("*" * 100)
print(pd.cut(left["B"], d, labels=False))

 

[  0.  25.  50.  75. 100.]
[1.   1.75 2.5  3.25 4.  ]
****************************************************************************************************
<class 'numpy.ndarray'>
****************************************************************************************************
0            NaN
1    (1.75, 2.5]
2    (2.5, 3.25]
3    (3.25, 4.0]
Name: B, dtype: category
Categories (4, interval[float64]): [(1.0, 1.75] < (1.75, 2.5] < (2.5, 3.25] < (3.25, 4.0]]
****************************************************************************************************
0    NaN
1    1.0
2    2.0
3    3.0
Name: B, dtype: float64


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM