數據科學:Pandas 和 Series 的 describe() 方法


一、Pandas 和 Series 的 describe() 方法

 1)功能

  • 功能:對數據中每一列數進行統計分析;(以“列”為單位進行統計分析)

  • 默認只先對“number”的列進行統計分析;

 

  • 一列數據全是“number”

  1. count:一列的元素個數;
  2. mean:一列數據的平均值;
  3. std:一列數據的均方差;(方差的算術平方根,反映一個數據集的離散程度:越大,數據間的差異越大,數據集中數據的離散程度越高;越小,數據間的大小差異越小,數據集中的數據離散程度越低)
  4. min:一列數據中的最小值;
  5. max:一列數中的最大值;
  6. 25%:一列數據中,前 25% 的數據的平均值;
  7. 50%:一列數據中,前 50% 的數據的平均值;
  8. 75%:一列數據中,前 75% 的數據的平均值;

 

  • 一列數據: “categorical”、“categorical” + “number”:

  1. count:一列數據的元素個數;
  2. unique:一列數據中元素的種類;
  3. top:一列數據中出現頻率最高的元素;
  4. freq:一列數據中出現頻率最高的元素的個數;

 

  • 一列數據:object(如時間序列)

  1. first:開始時間;
  2. last:結束時間;

 

 2)實例及參數使用:Series 數據類型

  • number

 

  • categorical

 

  • object(統稱為 “string” 類)

 

 

 3)實例及參數使用:DataFrame 數據類型

  • (一)默認只處理 number

 

  • (二)分析整個 DataFrame 數據:include = 'all'

 

  • (三)指定統計分析 DataFrame 中的某一列

 

  • (四)只分析所有的 “number” 列

  • 也可以是:df.describe(include=['number'])

 

  • (五)只分析所有 “category” 列

 

  • (六)只統計所有 “object” 列

 

  • (七)分析除了 “number” 列的所有列

 

  • (八)分析除了 “object” 列的所有列

 

 4)與 loc、sort 的配合使用

  • df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')
  • 只對數據的“min”、“max”、“mean”、“std”進行分析,並將分析的結果轉置后,以“max”的大小對每行進行排序;(默認從小到大)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM