數據科學：Pandas 和 Series 的 describe() 方法 - 碼上歡樂

相關內容簡體繁體

數據科學：Pandas 和 Series 的 describe() 方法

本文轉載自查看原文 2018-08-23 18:46 1767 數據科學：Numpy、Pandas、Matplotlib、Seaborn 的使用

一、Pandas 和 Series 的 describe() 方法

　1）功能

功能：對數據中每一列數進行統計分析；（以“列”為單位進行統計分析）
默認只先對“number”的列進行統計分析；

一列數據全是“number”

count：一列的元素個數；
mean：一列數據的平均值；
std：一列數據的均方差；（方差的算術平方根，反映一個數據集的離散程度：越大，數據間的差異越大，數據集中數據的離散程度越高；越小，數據間的大小差異越小，數據集中的數據離散程度越低）
min：一列數據中的最小值；
max：一列數中的最大值；
25%：一列數據中，前 25% 的數據的平均值；
50%：一列數據中，前 50% 的數據的平均值；
75%：一列數據中，前 75% 的數據的平均值；

一列數據： “categorical”、“categorical” + “number”：

count：一列數據的元素個數；
unique：一列數據中元素的種類；
top：一列數據中出現頻率最高的元素；
freq：一列數據中出現頻率最高的元素的個數；

一列數據：object（如時間序列）

first：開始時間；
last：結束時間；

　2）實例及參數使用：Series 數據類型

number

categorical

object（統稱為 “string” 類）

　3）實例及參數使用：DataFrame 數據類型

（一）默認只處理 number

（二）分析整個 DataFrame 數據：include = 'all'

（三）指定統計分析 DataFrame 中的某一列

（四）只分析所有的 “number” 列
也可以是：df.describe(include=['number'])

（五）只分析所有 “category” 列

（六）只統計所有 “object” 列

（七）分析除了 “number” 列的所有列

（八）分析除了 “object” 列的所有列

　4）與 loc、sort 的配合使用

df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')
只對數據的“min”、“max”、“mean”、“std”進行分析，並將分析的結果轉置后，以“max”的大小對每行進行排序；（默認從小到大）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pandas中的describe方法 Pandas Series: sum()方法 Pandas的Series常用方法 1、pandas數據結構之Series——創建Series pandas 學習（1）： pandas 數據結構之Series pandas數據讀取（DataFrame & Series） Pandas Series 與 DataFrame 數據創建數據分析pandas之DataFrame.describe() 用法概述 Python pandas.DataFrame.describe函數方法的使用 pandas-21 Series和Dataframe的畫圖方法

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM