筆記:
import pandas as pd
對於csv數據文件,利用pd.read_csv()打開,如train_data=pd.read_csv('')
利用train_data.head()可以查看部分data
train_describe()可以得到統計數目,得到平均數、方差等特征(當然是針對數字類型的數據)
對於非數字類型的數據(字符型 數據),可以使用train_data['這里填帶統計的標簽'].value_counts()統計分類數目
如下顯示的結果對應的是:某一個標簽為property_area,標簽下有semiurban urban rural等三個類別,統計對應數目
import matplot.pyplot as plt
train_data['標簽'].hist(bins=50)
plt.show()
可以顯示該標簽下的數據分布,50表示y軸的間隔,以直方圖顯示,橫軸表示數值范圍,y軸表示數量
train_data.boxplot(column='標簽')
plt.show()
可以顯示該標簽下的數值分布,觀察分布是否均衡
比如下圖表示,數據分布並不均勻,有極值出現
df.boxplot(column='標簽1', by = '標簽2')
plt.show()
可以將標簽1下的數據再按照標簽2進行數值分布繪制
如以下表示,已經按照受教育程度分類,受教育水平高的工資極值高,還能得到其他結論
注:在想要畫圖時,單獨輸入畫圖指令還不能顯示圖形,這時需要在另一行上輸入plt.show()才可以,條件:import matplotlib.pyplot as plt