數據分析隨筆(python及pandas及matplotlib查看數據)


筆記:

import pandas as pd

對於csv數據文件,利用pd.read_csv()打開,如train_data=pd.read_csv('')

利用train_data.head()可以查看部分data

 

train_describe()可以得到統計數目,得到平均數、方差等特征(當然是針對數字類型的數據)

 

對於非數字類型的數據(字符型 數據),可以使用train_data['這里填帶統計的標簽'].value_counts()統計分類數目

如下顯示的結果對應的是:某一個標簽為property_area,標簽下有semiurban urban rural等三個類別,統計對應數目

 

 

import matplot.pyplot as plt

train_data['標簽'].hist(bins=50)

plt.show()

可以顯示該標簽下的數據分布,50表示y軸的間隔,以直方圖顯示,橫軸表示數值范圍,y軸表示數量

 

 

train_data.boxplot(column='標簽')

plt.show()

可以顯示該標簽下的數值分布,觀察分布是否均衡

比如下圖表示,數據分布並不均勻,有極值出現

 

 

df.boxplot(column='標簽1', by = '標簽2')

plt.show()

可以將標簽1下的數據再按照標簽2進行數值分布繪制

如以下表示,已經按照受教育程度分類,受教育水平高的工資極值高,還能得到其他結論

 

注:在想要畫圖時,單獨輸入畫圖指令還不能顯示圖形,這時需要在另一行上輸入plt.show()才可以,條件:import matplotlib.pyplot as plt

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM