Python-Pandas數據分析常用方法

本文轉載自查看原文 2020-04-23 16:21 588

1. value_counts()

value_counts()是Series的方法，用於計算非重復值出現的次數並默認從高到低排序，在DataFrame中通常指定某列。

也經常使用Data.'colunm'.value_counts().count() 計算非重復值個數。

2. groupby()

Pandas中分組方法，指定按照某維度分組，並返回groupby對象（可用for循壞迭代）。

參數：by = ['','']指定分組的維度 , as_index='' 默認為True，分組的維度作為返回對象的index。

3. nunique()

nunique()返回非重復值個數，.nunique返回非重復值序列。

4. reset_index()

將索引修改為列。參數 level = '' 列的位置，inplace = True在原DataFrame修改，drop = '' 默認為False，索引還原為普通列。

5. set_index()

將某列該為索引。參數指定需設置為索引的列，drop默認False，刪除用於索引的列，inplace默認為False，返回新對象。

6. drop_duplicates()

返回非重復值第一次出現的序號和非重復值，Data.'colunm'.drop_duplicates().count()計算非重復值個數。

7. duplicated()

某列非重復值顯示為False，重復值顯示為True。

8. sort_values()

排序方法，參數指定by = 'column' 默認ascending = True升序。

9. get_loc()

針對index和columns ，通過名稱返回某列下標。

10. agg()

通常與groupby()連用，對分組后的數據進行聚合。 .agg(['min','max'])

11. capitalize()

將字符串第一個字符轉化為大寫。

12. pandas.to_datetime()

轉換為時間類型，便於對日期進行操作。

13. resample()

時間重采樣技術，.resample('10AS').sum()，聚合源數據中10年為1行。

13. idxmax()

獲取每列最大值索引。

14. dropna()

默認刪除所有Nan的數據，指定參數 how = 'all' ,刪除全為Nan的行。

15. concat()

pandas.concat(['df1','df2'])，默認縱向連接，axis = 1則橫向連接。

16. merge()
表的連接，pd.merge(df1,df2,on = ' ',how = ' '),參數 how = 'inner' 內連接兩邊都有的值,'outer'外連接取並集並用Nan填充，'left'左連接，'right'右連接。

17. rename()

index和columns重命名，參數指定字典格式，df.rename(index = {'index1':'index2'},columns = {'column1':'column2'})

18. drop()

DataFrame中刪除行或列

df.drop(['column1','column2'],axis = 1, inplace = True)刪除column1和column2兩列。

df.drop(['index1','index2'],axis = 0, inplace = True)刪除index1和index2兩行，axis默認=0，刪除行。

2020-4-23 16：20

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python數據分析三個重要方法之:numpy和pandas Python數據分析Pandas庫方法簡介 python之數據分析pandas Python數據分析之pandas學習 Python數據分析之pandas學習 Python數據分析(二): Pandas技巧 (2) Python數據分析(二): Pandas技巧 (1) python 數據分析之pandas Python 數據分析 Pandas python數據分析工具 | pandas