Python-Pandas數據分析常用方法


1. value_counts()

value_counts()是Series的方法,用於計算非重復值出現的次數並默認從高到低排序,在DataFrame中通常指定某列。

也經常使用Data.'colunm'.value_counts().count() 計算非重復值個數。

 

2. groupby()

Pandas中分組方法,指定按照某維度分組,並返回groupby對象(可用for循壞迭代)。

參數:by = ['','']指定分組的維度 , as_index='' 默認為True,分組的維度作為返回對象的index。

 

 

3. nunique() 

nunique()返回非重復值個數,.nunique返回非重復值序列。

 

4. reset_index() 

將索引修改為列。參數 level = '' 列的位置,inplace = True在原DataFrame修改,drop = '' 默認為False,索引還原為普通列。

 

5. set_index()

將某列該為索引。參數指定 需設置為索引的列,drop默認False,刪除用於索引的列,inplace默認為False,返回新對象。

 

6. drop_duplicates()

返回非重復值第一次出現的序號和非重復值,Data.'colunm'.drop_duplicates().count()計算非重復值個數。

 

7. duplicated()

某列非重復值顯示為False,重復值顯示為True。

 

8. sort_values()

排序方法,參數指定by = 'column' 默認ascending = True升序。

 

9. get_loc()

針對index和columns ,通過名稱返回某列下標。

 

10. agg()

通常與groupby()連用,對分組后的數據進行聚合。 .agg(['min','max'])

 

11. capitalize()

將字符串第一個字符轉化為大寫。

 

12. pandas.to_datetime()

轉換為時間類型,便於對日期進行操作。

 

13. resample()

時間重采樣技術,.resample('10AS').sum(),聚合源數據中10年為1行。

 

13. idxmax()

獲取每列最大值索引。

 

14. dropna()

默認刪除所有Nan的數據,指定參數 how = 'all' ,刪除全為Nan的行。

 

15. concat()

pandas.concat(['df1','df2']),默認縱向連接,axis = 1則橫向連接。

 

16. merge()
表的連接,pd.merge(df1,df2,on = ' ',how = ' '),參數 how = 'inner' 內連接兩邊都有的值,'outer'外連接取並集並用Nan填充,'left'左連接,'right'右連接。

 

17. rename()

index和columns重命名,參數指定字典格式,df.rename(index = {'index1':'index2'},columns = {'column1':'column2'})

 

18. drop()

DataFrame中刪除行或列

df.drop(['column1','column2'],axis = 1, inplace = True)刪除column1和column2兩列。

df.drop(['index1','index2'],axis = 0, inplace = True)刪除index1和index2兩行,axis默認=0,刪除行。

 

2020-4-23 16:20

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM