1、導入數據可視化的相關庫文件
import pandas as pd pd.set_option('display.max_column',30) import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt import seaborn as sns sns.set() from pylab import rcParams ##matplotlib rcParams['figure.figsize'] = 12, 8
2、讀入數據
train = pd.read_csv('data/first_round_training_data.csv')[['Parameter'+str(i) for i in range(1,11)]+['Quality_label']] test = pd.read_csv('data/first_round_testing_data.csv')
3、區分開類別特征和連續特征
理解:類別變量就是說特征取值比較少的變量,連續特征值就是說特征連續取值,所有用可視化數據的nunique()
train.nunique().plot(kind='bar')
上圖中前四個表示連續特征,后邊的都是類別特征,最后兩個是標簽。
4、可視化特征取值與類別的關系
理解:這樣步驟可以用來看特征中是否有些異常點等。
for i in ['Parameter'+str(i) for i in range(1,11)]: sns.scatterplot(x='Quality_label', y=i, data=train) plt.title(i) plt.show()
。。。。后面還有7張圖就不貼了。。
5、用散點圖繪制訓練集和測試集的分布,查看異常值
for i in ['Parameter'+str(i) for i in range(1,11)]: plt.figure(figsize=(14,8)) plt.scatter(x=range(len(train)), y=train[i], label='Train') plt.scatter(x=range(len(test),len(test)*2), y=test[i], label='Test') plt.title(i) plt.legend() plt.show()
。。。。。。后面還有幾張