1. value_counts()
value_counts()是Series的方法,用於計算非重復值出現的次數並默認從高到低排序,在DataFrame中通常指定某列。
也經常使用Data.'colunm'.value_counts().count() 計算非重復值個數。
2. groupby()
Pandas中分組方法,指定按照某維度分組,並返回groupby對象(可用for循壞迭代)。
參數:by = ['','']指定分組的維度 , as_index='' 默認為True,分組的維度作為返回對象的index。
3. nunique()
nunique()返回非重復值個數,.nunique返回非重復值序列。
4. reset_index()
將索引修改為列。參數 level = '' 列的位置,inplace = True在原DataFrame修改,drop = '' 默認為False,索引還原為普通列。
5. set_index()
將某列該為索引。參數指定 需設置為索引的列,drop默認False,刪除用於索引的列,inplace默認為False,返回新對象。
6. drop_duplicates()
返回非重復值第一次出現的序號和非重復值,Data.'colunm'.drop_duplicates().count()計算非重復值個數。
7. duplicated()
某列非重復值顯示為False,重復值顯示為True。
8. sort_values()
排序方法,參數指定by = 'column' 默認ascending = True升序。
9. get_loc()
針對index和columns ,通過名稱返回某列下標。
10. agg()
通常與groupby()連用,對分組后的數據進行聚合。 .agg(['min','max'])
11. capitalize()
將字符串第一個字符轉化為大寫。
12. pandas.to_datetime()
轉換為時間類型,便於對日期進行操作。
13. resample()
時間重采樣技術,.resample('10AS').sum(),聚合源數據中10年為1行。
13. idxmax()
獲取每列最大值索引。
14. dropna()
默認刪除所有Nan的數據,指定參數 how = 'all' ,刪除全為Nan的行。
15. concat()
pandas.concat(['df1','df2']),默認縱向連接,axis = 1則橫向連接。
16. merge()
表的連接,pd.merge(df1,df2,on = ' ',how = ' '),參數 how = 'inner' 內連接兩邊都有的值,'outer'外連接取並集並用Nan填充,'left'左連接,'right'右連接。
17. rename()
index和columns重命名,參數指定字典格式,df.rename(index = {'index1':'index2'},columns = {'column1':'column2'})
18. drop()
DataFrame中刪除行或列
df.drop(['column1','column2'],axis = 1, inplace = True)刪除column1和column2兩列。
df.drop(['index1','index2'],axis = 0, inplace = True)刪除index1和index2兩行,axis默認=0,刪除行。
2020-4-23 16:20