pandas的數據統計函數

本文轉載自查看原文 2019-11-13 17:32 435 pandas

# 1匯總類統計
# 2唯一去重和按值計數
# 3 相關系數和協方差

import pandas as pd 

#  0 讀取csv數據
df = pd.read_csv("beijing_tianqi_2018.csv")
df.head()


# 換掉溫度后面的后綴
df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int32")
df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype("int32")
df.head(3)

# 1 匯總類統計

# 一下子提取所有數字列的統計結果
df.describe()

# 查看單個Series的數據
df["bWendu"].mean()

# 最高溫
df["bWendu"].max()

# 最低溫
df["bWendu"].min()


# 2 唯一去重和按值計數
# 2.1 唯一性去重  一般不用於數值列，而是枚舉、分類列
df["fengxiang"].unique()

df["tianqi"].unique()
df["fengli"].unique()


# 2.2 按值計數（降序排列）
df["fengxiang"].value_counts()
df["tianqi"].value_counts()
df["fengli"].value_counts()


# 3 相關系數和協方差
# 用途:
    # 1、兩只股票，這不是同漲同落？程度多大？正相關還是負相關？
    #2、產品銷量的波動，跟哪些因素正相關、負相關，程度有多大？
    
# 1、協方差:衡量同向反向程度。  如果協方差為正，說明想想X,Y同向程度越高；
# 如果協方差為負，說明X,Y反向運動，協方差越小說明反向程度越高

# 2、相關系數：衡量相似度程度。當他們的相關系數為1時，說明兩個變量變化時
# 的正向相似度最大，當相關系數為-1時，說明兩個變量變化的反向相似度最大

# 協方差矩陣
df.cov()

# 相關系數矩陣
df.corr()

# 單獨查看空氣質量和最高溫度的相關系數
df["aqi"].corr(df["bWendu"])
df["aqi"].corr(df["yWendu"])
# 空氣質量和溫差的相關系數
df["aqi"].corr(df["bWendu"]-df["yWendu"])

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pandas系列教程（5）Pandas數據統計函數 pandas數據統計插件的連接函數concat()妙用，靈活處理數據對象！ 11.Pandas怎樣實現分組數據統計 2_5 數據統計關於Flurry的數據統計 Excel常用公式函數之數據篩選、數據統計 Excel數據統計與分析 sql中數據統計 fiddler之數據統計（statistics） layui表格數據統計