# 1匯總類統計 # 2唯一去重和按值計數 # 3 相關系數和協方差 import pandas as pd # 0 讀取csv數據 df = pd.read_csv("beijing_tianqi_2018.csv") df.head() # 換掉溫度后面的后綴 df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int32") df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype("int32") df.head(3) # 1 匯總類統計 # 一下子提取所有數字列的統計結果 df.describe() # 查看單個Series的數據 df["bWendu"].mean() # 最高溫 df["bWendu"].max() # 最低溫 df["bWendu"].min() # 2 唯一去重和按值計數 # 2.1 唯一性去重 一般不用於數值列,而是枚舉、分類列 df["fengxiang"].unique() df["tianqi"].unique() df["fengli"].unique() # 2.2 按值計數(降序排列) df["fengxiang"].value_counts() df["tianqi"].value_counts() df["fengli"].value_counts() # 3 相關系數和協方差 # 用途: # 1、兩只股票,這不是同漲同落?程度多大?正相關還是負相關? #2、產品銷量的波動,跟哪些因素正相關、負相關,程度有多大? # 1、協方差:衡量同向反向程度。 如果協方差為正,說明想想X,Y同向程度越高; # 如果協方差為負,說明X,Y反向運動,協方差越小說明反向程度越高 # 2、相關系數:衡量相似度程度。當他們的相關系數為1時,說明兩個變量變化時 # 的正向相似度最大,當相關系數為-1時,說明兩個變量變化的反向相似度最大 # 協方差矩陣 df.cov() # 相關系數矩陣 df.corr() # 單獨查看空氣質量和最高溫度的相關系數 df["aqi"].corr(df["bWendu"]) df["aqi"].corr(df["yWendu"]) # 空氣質量和溫差的相關系數 df["aqi"].corr(df["bWendu"]-df["yWendu"])