pandas的數據統計函數


# 1匯總類統計
# 2唯一去重和按值計數
# 3 相關系數和協方差

import pandas as pd 

#  0 讀取csv數據
df = pd.read_csv("beijing_tianqi_2018.csv")
df.head()


# 換掉溫度后面的后綴
df.loc[:,"bWendu"] = df["bWendu"].str.replace("","").astype("int32")
df.loc[:,"yWendu"] = df["yWendu"].str.replace("","").astype("int32")
df.head(3)

# 1 匯總類統計

# 一下子提取所有數字列的統計結果
df.describe()

# 查看單個Series的數據
df["bWendu"].mean()

# 最高溫
df["bWendu"].max()

# 最低溫
df["bWendu"].min()


# 2 唯一去重和按值計數
# 2.1 唯一性去重  一般不用於數值列,而是枚舉、分類列
df["fengxiang"].unique()

df["tianqi"].unique()
df["fengli"].unique()


# 2.2 按值計數(降序排列)
df["fengxiang"].value_counts()
df["tianqi"].value_counts()
df["fengli"].value_counts()


# 3 相關系數和協方差
# 用途:
    # 1、兩只股票,這不是同漲同落?程度多大?正相關還是負相關?
    #2、產品銷量的波動,跟哪些因素正相關、負相關,程度有多大?
    
# 1、協方差:衡量同向反向程度。  如果協方差為正,說明想想X,Y同向程度越高;
# 如果協方差為負,說明X,Y反向運動,協方差越小說明反向程度越高

# 2、相關系數:衡量相似度程度。當他們的相關系數為1時,說明兩個變量變化時
# 的正向相似度最大,當相關系數為-1時,說明兩個變量變化的反向相似度最大

# 協方差矩陣
df.cov()

# 相關系數矩陣
df.corr()

# 單獨查看空氣質量和最高溫度的相關系數
df["aqi"].corr(df["bWendu"])
df["aqi"].corr(df["yWendu"])
# 空氣質量和溫差的相關系數
df["aqi"].corr(df["bWendu"]-df["yWendu"])

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM