python實現讀取類別頻數數據畫水平條形圖


1、數據分組-->頻數分布表

環境配置:

1 import pandas as pd
2 import numpy as np
3 import matplotlib.pyplot as plt

按照你設定合適的間隔,把數據分為各個范圍的組,然后統計出在這個范圍內的頻數有多少,我沒有找到合適的函數,我就自己寫了一個函數,類似直方圖的工作,這是畫水平條形圖的數據准備。至於為什么要畫水平條形圖,當類別太多,使用水平條形圖比較簡潔,個人看法。下面給出代碼,就不解釋代碼含義了。

 1 def data_count(dataa, r1, r2, step):
 2     r = pd.DataFrame(np.random.randn(1, 2))
 3     r.drop(0, inplace=True)
 4     while r1+step <= r2:
 5         num = 0
 6         for j in range(len(dataa)):
 7             if dataa[j] >= r1 and dataa[j] < r1+step:
 8                 num = num + 1
 9         f = "%s~%d" % (r1, r1+step)
10         # r = r.append([[int(r1), num], ]) # 使用單數表示
11         r = r.append([[f, num], ])  # 使用范圍表示
12         r1 = r1 + step
13     return r

 要注意的數據范圍只包含上界不含下界,數據公式這樣子${\text{1}} \leqslant data < 5$,只含上界,這樣就可以做出不重不漏。

2、頻數計算

這是運用data_count函數(上面代碼)進行頻數計算的演示,首先看一下原數據長什么樣,暫時麻煩就不公布了,你們自己按照自己的數據決定。

原數據

測試data_count函數代碼:

1 data_gap1 = data_count(g11[:], 1, 51, 1)
2 data_gap2 = data_count(g22[:], 1, 51, 1)

很簡單啦,就是函數的調用,你們都會的,給大家看一下輸出結果,如下圖:

輸出結果

感覺相當完美,函數也很萬能,只要輸入最小值最大值和間隔,就能出頻數分布表

 

3、水平條形圖

def plot_bar(plot_data, title):
    plt.figure(figsize=(10, 15))
    y = plot_data.iloc[:, 1].values
    tt = list(range(len(y)))
    index = plot_data.iloc[:, 0].values
    plt.bar(left=0, bottom=list(range(len(y))), width=y, color='blue', height=0.5,
            orientation='horizontal')  # 水平對應bottom&width, height表示bar的寬度
    plt.yticks(tt, index)
    plt.ylabel('數據范圍')
    plt.xlabel('頻數')
    plt.title(title)
    plt.show()

上面中plt.bar(left=0, bottom=list(range(len(y))), width=y, color='blue', height=0.5,orientation='horizontal')這句代碼是最重要的,其中left表示直方圖的開始的位置(也就是最左邊的地方),height是指直方圖的高度,當直方圖太粗時,可以通過width來定義直方圖的寬度,注意多個直方圖要用元組,yerr這個參數是防止直方圖觸頂。orientation='horizontal'指得水平條形圖,使用barh方法可以省略這個參數得設定。

有個坑,如果直接用bottom=類別數據,文本格式的類別會亂序,需要像我那樣先指定位置,在指定類別,如plt.yticks(tt, index)所作的工作。

水平條形圖

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM