數據可視化(二)


本文來源:https://www.dataquest.io/mission/132/data-visualization-and-exploration

本文數據來源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv

本文主要介紹了一下如何簡單的探查數據之間的關系

 

原始數據展現(這是一份大學畢業生的薪資調查報告,重要的字段有這些,Major - 專業名稱, Major_category - 專業類別, Sample_size - 樣本大小, ShareWomen - 女性比重, Total- 該專業的總人數)

import pandas as pd

recent_grads = pd.read_csv('recent-grads.csv')

Image 001

 

直方圖

要制作直方圖,首先把X軸的值的范圍等分成多個間隔,然后數出每個間隔中包含的值的數量,然后把該數量作為Y軸的值。使用方法pandas.DataFrame.hist()函數

#制作工資收入中位數(Median列)的直方圖

recent_grads.hist(‘Median’)

Image 002

# hist()函數默認是自動分成10等分的,且生成的圖中是有網格線的,現在要分成20等分,同時消除網格線

recent_grads.hist('Median', bins=20, grid=False)

Image 003

# 其實可以一次性制作多個直方圖,layout參數的意思是將兩個圖分成兩行一列,如果沒有這個參數,默認會將全部的圖放在同一行

columns = ['Median','Sample_size']

recent_grads.hist(column=columns, layout=(2,1), grid=False)

Image 004

 

箱型圖

箱型圖是基於五數概括法(最小值,第一個四分位數,第一個四分位數(中位數),第三個四分位數,最大值)的數據的一個圖形匯總,還需要用到四分位數間距IQR = 第三個四分位數 - 第一個四分位數。詳情請google

制作箱型圖使用的是pandas.DataFrame.boxplot()方法

import matplotlib.pyplot as plt

# 選擇兩列數據

sample_size = recent_grads[['Sample_size', 'Major_category']]

# 按照每一個專業類型分類統計

sample_size.boxplot(by='Major_category')

# 將X軸的坐標文字旋轉90度,垂直顯示

plt.xticks(rotation=90)

Image 005

 

多圖合並

要想找出多個變量之間的關聯,就要把多個變量的變化都做在同一個圖上進行比較

# 將兩個散點圖放在一起(按顏色區分),觀察是否有關聯

import matplotlib.pyplot as plt

plt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red')

plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue')

plt.show()

Image 006


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM