一、Pandas 和 Series 的 describe() 方法
1)功能
-
功能:對數據中每一列數進行統計分析;(以“列”為單位進行統計分析)
- 默認只先對“number”的列進行統計分析;
-
一列數據全是“number”
- count:一列的元素個數;
- mean:一列數據的平均值;
- std:一列數據的均方差;(方差的算術平方根,反映一個數據集的離散程度:越大,數據間的差異越大,數據集中數據的離散程度越高;越小,數據間的大小差異越小,數據集中的數據離散程度越低)
- min:一列數據中的最小值;
- max:一列數中的最大值;
- 25%:一列數據中,前 25% 的數據的平均值;
- 50%:一列數據中,前 50% 的數據的平均值;
- 75%:一列數據中,前 75% 的數據的平均值;
-
一列數據: “categorical”、“categorical” + “number”:
- count:一列數據的元素個數;
- unique:一列數據中元素的種類;
- top:一列數據中出現頻率最高的元素;
- freq:一列數據中出現頻率最高的元素的個數;
-
一列數據:object(如時間序列)
- first:開始時間;
- last:結束時間;
2)實例及參數使用:Series 數據類型
-
number
-
categorical
-
object(統稱為 “string” 類)
3)實例及參數使用:DataFrame 數據類型
-
(一)默認只處理 number
-
(二)分析整個 DataFrame 數據:include = 'all'
-
(三)指定統計分析 DataFrame 中的某一列
-
(四)只分析所有的 “number” 列
- 也可以是:df.describe(include=['number'])
-
(五)只分析所有 “category” 列
-
(六)只統計所有 “object” 列
-
(七)分析除了 “number” 列的所有列
-
(八)分析除了 “object” 列的所有列
4)與 loc、sort 的配合使用
- df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')
- 只對數據的“min”、“max”、“mean”、“std”進行分析,並將分析的結果轉置后,以“max”的大小對每行進行排序;(默認從小到大)