python數據分析學習(5)pandas描述性統計的概述與計算


  pandas對象有一個常用數學,統計學方法的集合。大部分屬於歸納或匯總統計。這些方法從DataFrame的行或列中抽取一個Series或一系列的值。
  pandas的描述性統計的方法和NumPy的方法相比,內建了處理缺失值的功能,很好地針對於每一個我們需要處理的數據。

一:一些基本方法

1.歸約方法

  sum方法返回一個包含列上加和的Series。 若傳入axis = 'columns'或axis = 1,將會把一行上各個列的值相加。會把缺失值自動排除,可以通過skipna = False設置禁用skipna來實現不排除缺失值。

  可用idxmin和idxmax,返回間接統計信息,比如最小值或最大值的索引值。

2.積累型方法

  有些方法是積累型方法,比如cumsum是返回積累值。

3.其他方法

  還有一些不是歸約方法和積累型的方法,比如describe方法,一次性產生多個匯總統計值。

二:相關性和協方差

  一些匯總統計,是由多個參數計算出的。與之相關的是一個附加庫,是 pandas-datareader ,可以從Yahoo!Finance上獲取股價和交易量的二維DataFrame數據。

  用pct_change和tail獲得股價的百分比。

  函數corr方法是計算兩個對象重疊的,非NA的,按索引對其的值的相關性。相應地,cov計算的是協方差。

  用DataFrame的corrwith方法,可以計算出DataFrame中的行或列與另一個序列或DataFrame的相關性。 這個方法是一個歸約方法 ,傳入axis = 'columns'或者axis = 1則會對逐行進行操作。

三:唯一值,計數和成員屬性

  有些方法可以從數據中提取信息,如下:

  函數unique會給出唯一值,可以用uniques.sort()進行排序。

  函數value_counts會計算數據中包含值的個數,默認會按照數量降序排列,可以通過設置sort = False不進行降序排列。

  函數isin可以檢查數據成員是否和參數匹配,並進行過濾,即去除未匹配的數據。

  而與之相關的Index.get_indexer方法,可以提供一個索引數組,將可能非唯一數組轉換為另一個唯一值數組。

  函數pandas.value_counts可以計算DataFrame多個相關列的直方圖,得到的直方圖的行標簽是所有列出現的不同值,數值是不同值在每個列中出現的次數。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM