數據探索性分析案例實現(EDA)之鑽石數據分析


一、數據集及其分析

diamonds數據框包含5萬余行,有10列屬性,對應鑽石的一些參數值。

 

carat:克拉(鑽石或其他寶石的重量單位,等於200毫克)

 

cut:切; 割,由低到高依次為Fair(恰當的), Good(好的), Very Good(非常好), Premium(優質的), Ideal(完美的)

 

color:顏色,無色鑽石的顏色從無色到淺黃色分為D~Z共23個等級,其中以D等級的無色鑽石顏色最好

 

clarity:鑽石的純凈度,目前鑽石純凈度等級有六大類別,分別是fl、if、vvs、vs、si、i,然后又被細分為十一個等級標准,分別是fl,if,vvs1,vvs2,vs1,vs2,si1,si2,i1,i2,i3。(從高到低)

 

depth:鑽石全深百分比,圓鑽的全深百分比是將全深(厚度)除以最小與最大直徑的平均數,即為鑽石厚度與直徑的百分比。

 

table:鑽石台寬比,根據美國寶石學院現行對鑽石切磨分級的建議,台面依其大小可分為下列四種類型:

  小型台面:53%至60%

  中型台面:61%至64%

  大型台面:65%至70%

  超大型台面:71%或以上。

 

price:鑽石的價格

 

x,y,z:分別代表了鑽石的長,寬,高

 

二、問題提出

1.價格與鑽石重量的關系

2.價格與鑽石切割品質的關系

3.價格與鑽石純凈度的關系

4.價格與鑽石全深百分比的關系

5.價格與鑽石台寬比的關系

 

三、數據清洗和預處理

1.讀取展示數據

 

 

 2.缺失值統計

 

 

 沒有缺失值,故無需填補刪除缺失。

去除重復項

 

 

 

 

 

 

 

 

四、各變量相關性數據分析與可視化

1.運用Dtale庫進行數據分析與可視化

 

 

 

2.漢化

 

 

 

 

 

 

3.描述

 

 

 

4.直方圖

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

與價格有關的折線圖

 

 

 

 

 

 

 

 

 

 

 

 

與價格相關的柱狀圖

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

與價格相關的散點圖

 

 

 

 

 

 

 

 

 

與價格相關的餅狀圖

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

與價格相關的詞雲圖

 

 

 

 

 

 

 

 

 

五、主要結論

1.價格與鑽石重量的關系

 

 

 鑽石越重價格越高

 

2.價格與鑽石切割品質的關系

 

 鑽石切割越好價格越高

 

 

 

 

3.價格與鑽石純凈度的關系

 

 

 鑽石越純凈價格越高

 

4.價格與鑽石全深百分比的關系

 

 

 鑽石全深百分比在64%左右價格高

 

5.價格與鑽石台寬比的關系

 

 

 台寬比在54%左右價格高

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM