動手數據分析-泰坦尼克案例(數據可視化)


回顧學習完第一章,我們對泰坦尼克號數據有了基本的了解,也學到了一些基本的統計方法,第二章中我們學習了數據的清理和重構,使得數據更加的易於理解;今天我們要學習的是第二章第三節:數據可視化,主要給大家介紹一下Python數據可視化庫Matplotlib。

第二章:數據可視化

開始之前,導入numpy、pandas以及matplotlib包和數據

 

 【思考】最基本的可視化圖案有哪些?分別適用於那些場景?

#思考回答
#這一部分需要了解可視化圖案的的邏輯,知道什么樣的圖案可以表達什么樣的信號b
1、柱狀圖 展示多個分類的數據變化和同類別各變量之間的比較情況,適用於對比分類數據;
2、條形圖 適用於類別名稱過長,將有大量空白位置標示每個類別的名稱;
3、折線圖 展示數據隨時間或有序類別的波動情況的趨勢變化,適用於有序的類別,比如時間;
4、散點圖 用於發現各變量之間的關系,適用於存在大量數據點,結果更精准,比如回歸分析;
5、餅圖 用來展示各類別占比,比如男女比例,適用於了解數據的分布情況;
6、熱力圖 展現同一層級的不同分類的占比情況,還可以同一個分類下子級的占比情況,比如商品品類等;
7、詞雲 展現文本信息,對出現頻率較高的“關鍵詞”予以視覺上的突出,比如用戶畫像的標簽。
8、雷達圖 將多個分類的數據量映射到坐標軸上,對比某項目不同屬性的特點。
9、漏斗圖 用梯形面積表示某個環節業務量與上一個環節之間的差異。可以直觀地顯示轉化率和流失率;

2.7.2 任務二:可視化展示泰坦尼克號數據集中男女中生存人數分布情況(用柱狀圖試試)。

 

 

2.7.3 任務三:可視化展示泰坦尼克號數據集中男女中生存人與死亡人數的比例圖(用柱狀圖試試)。

 

 思考:stack()與unstack()比較 

stack: 將數據的列索引轉換為行索引(列索引可以簡單理解為列名);unstack:將數據的行索引轉換為列索引;
# stack和unstack默認操作為最內層

 

 

2.7.4 任務四:可視化展示泰坦尼克號數據集中不同票價的人生存和死亡人數分布情況。(用折線圖試試)(橫軸是不同票價,縱軸是存活人數)

 

 

 

 

2.7.5 任務五:可視化展示泰坦尼克號數據集中不同倉位等級的人生存和死亡人員的分布情況。

 

 

2.7.6 任務六:可視化展示泰坦尼克號數據集中不同年齡的人生存與死亡人數分布情況。

 

 

2.7.7 任務七:可視化展示泰坦尼克號數據集中不同倉位等級的人年齡分布情況。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM