一、數據集及其分析
diamonds數據框包含5萬余行,有10列屬性,對應鑽石的一些參數值。
carat:克拉(鑽石或其他寶石的重量單位,等於200毫克)
cut:切; 割,由低到高依次為Fair(恰當的), Good(好的), Very Good(非常好), Premium(優質的), Ideal(完美的)
color:顏色,無色鑽石的顏色從無色到淺黃色分為D~Z共23個等級,其中以D等級的無色鑽石顏色最好
clarity:鑽石的純凈度,目前鑽石純凈度等級有六大類別,分別是fl、if、vvs、vs、si、i,然后又被細分為十一個等級標准,分別是fl,if,vvs1,vvs2,vs1,vs2,si1,si2,i1,i2,i3。(從高到低)
depth:鑽石全深百分比,圓鑽的全深百分比是將全深(厚度)除以最小與最大直徑的平均數,即為鑽石厚度與直徑的百分比。
table:鑽石台寬比,根據美國寶石學院現行對鑽石切磨分級的建議,台面依其大小可分為下列四種類型:
小型台面:53%至60%
中型台面:61%至64%
大型台面:65%至70%
超大型台面:71%或以上。
price:鑽石的價格
x,y,z:分別代表了鑽石的長,寬,高
二、問題提出
1.價格與鑽石重量的關系
2.價格與鑽石切割品質的關系
3.價格與鑽石純凈度的關系
4.價格與鑽石全深百分比的關系
5.價格與鑽石台寬比的關系
三、數據清洗和預處理
1.讀取展示數據

2.缺失值統計

沒有缺失值,故無需填補刪除缺失。
去除重復項

四、各變量相關性數據分析與可視化
1.運用Dtale庫進行數據分析與可視化

2.漢化

3.描述

4.直方圖





與價格有關的折線圖




與價格相關的柱狀圖






與價格相關的散點圖



與價格相關的餅狀圖






與價格相關的詞雲圖



五、主要結論
1.價格與鑽石重量的關系

鑽石越重價格越高
2.價格與鑽石切割品質的關系

鑽石切割越好價格越高
3.價格與鑽石純凈度的關系

鑽石越純凈價格越高
4.價格與鑽石全深百分比的關系

鑽石全深百分比在64%左右價格高
5.價格與鑽石台寬比的關系

台寬比在54%左右價格高
