python數據可視化的一些基本操作

本文轉載自查看原文 2019-09-06 19:57 545 機器學習

1、導入數據可視化的相關庫文件

import pandas as pd
pd.set_option('display.max_column',30)
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from pylab import rcParams ##matplotlib
rcParams['figure.figsize'] = 12, 8

2、讀入數據

train = pd.read_csv('data/first_round_training_data.csv')[['Parameter'+str(i) for i in range(1,11)]+['Quality_label']]
test = pd.read_csv('data/first_round_testing_data.csv')

3、區分開類別特征和連續特征

　　理解：類別變量就是說特征取值比較少的變量，連續特征值就是說特征連續取值，所有用可視化數據的nunique()

train.nunique().plot(kind='bar')

上圖中前四個表示連續特征，后邊的都是類別特征，最后兩個是標簽。

4、可視化特征取值與類別的關系

理解：這樣步驟可以用來看特征中是否有些異常點等。

for i in ['Parameter'+str(i) for i in range(1,11)]:
    sns.scatterplot(x='Quality_label', y=i, data=train)
    plt.title(i)
    plt.show()

。。。。后面還有7張圖就不貼了。。

5、用散點圖繪制訓練集和測試集的分布，查看異常值

for i in ['Parameter'+str(i) for i in range(1,11)]:
    plt.figure(figsize=(14,8))
    plt.scatter(x=range(len(train)), y=train[i], label='Train')
    plt.scatter(x=range(len(test),len(test)*2), y=test[i], label='Test')
    plt.title(i)
    plt.legend()
    plt.show()

。。。。。。后面還有幾張

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python的Excel操作及數據可視化 [Python] Python 學習 - 可視化數據操作（一）【Python】CV2的一些基本操作 python -- 數據可視化（二） python --數據可視化（一） python 數據可視化 python數據可視化 python 數據可視化（一） python操作Excel、讀取CVS與數據可視化 Python數據可視化——分布數據可視化