葡萄酒數據集數據分析


數據集來源:http://archive.ics.uci.edu/ml/datasets/Wine+Quality
引用說明
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from physicochemical properties.
In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

數據分析參考:阿里雲天池 https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0.63862042MtaPrq&postId=4662

需要用到的python庫:numpy pandas matplotlib seaborn seaborn就是在matplotlib基礎上面的封裝,方便直接傳參數調用

數據集說明
包含紅葡萄酒和白葡萄酒兩個數據集
winequality-red.csv
winequality-white.csv
實例數: red wine -1599 white wine-4898
屬性(特征)數:11+輸出屬性
輸入變量(基於物理化學測試)
1 - fixed acidity 固定酸度
2 - volatile acidity 揮發性酸度
3 - citric acid 檸檬酸
4 - residual sugar 殘糖
5 - chlorides 氯化物
6 - free sulfur dioxide 游離二氧化硫
7 - total sulfur dioxide 總二氧化硫
8 - density 密度
9 - pH PH值
10 - sulphates 硫酸鹽
11 - alcohol 酒精
輸出變量(基於感官數據):
12 - quality (score between 0 and 10)

使用jupyter notebook

`
讀取數據
df=pd.read_csv("winequality-red.csv")
查看dataframe前10行

查看數據信息

單變量數據分析

簡單的數據統計

df.columns 返回dataframe的列標簽
colmn=df.columns.tolist() 將dataframe返回的列標簽轉換成列表

fig=plt.figure(figsize=(10,6))
for i in range(12):
plt.subplot(2,6,i+1)
sns.boxplot(df[colmn[i]],orient="v", width = 0.5, color = color[0])
plt.ylabel(colmn[i],fontsize=12)
plt.tight_layout()
#print("Figure 1: Univariate Boxplots")

`


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM