數據分析隨筆(python及pandas及matplotlib查看數據)

本文轉載自查看原文 2018-03-10 00:31 3283 數據分析學習

筆記：

import pandas as pd

對於csv數據文件，利用pd.read_csv()打開，如train_data=pd.read_csv('')

利用train_data.head()可以查看部分data

train_describe()可以得到統計數目，得到平均數、方差等特征（當然是針對數字類型的數據）

對於非數字類型的數據（字符型數據），可以使用train_data['這里填帶統計的標簽'].value_counts()統計分類數目

如下顯示的結果對應的是：某一個標簽為property_area，標簽下有semiurban urban rural等三個類別，統計對應數目

import matplot.pyplot as plt

train_data['標簽'].hist(bins=50)

plt.show()

可以顯示該標簽下的數據分布，50表示y軸的間隔，以直方圖顯示，橫軸表示數值范圍，y軸表示數量

train_data.boxplot(column='標簽')

plt.show()

可以顯示該標簽下的數值分布，觀察分布是否均衡

比如下圖表示，數據分布並不均勻，有極值出現

df.boxplot(column='標簽1', by = '標簽2')

plt.show()

可以將標簽1下的數據再按照標簽2進行數值分布繪制

如以下表示，已經按照受教育程度分類，受教育水平高的工資極值高，還能得到其他結論

注：在想要畫圖時，單獨輸入畫圖指令還不能顯示圖形，這時需要在另一行上輸入plt.show()才可以，條件：import matplotlib.pyplot as plt

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據分析之NumPy，pandas，Matplotlib Python 數據分析 Matplotlib python數據分析工具 | matplotlib python數據分析scipy和matplotlib（三） python之數據分析pandas Python數據分析之pandas學習 Python數據分析之pandas學習 Python數據分析(二): Pandas技巧 (2) Python數據分析(二): Pandas技巧 (1) python 數據分析之pandas