1、數據分組-->頻數分布表
環境配置:
1 import pandas as pd 2 import numpy as np 3 import matplotlib.pyplot as plt
按照你設定合適的間隔,把數據分為各個范圍的組,然后統計出在這個范圍內的頻數有多少,我沒有找到合適的函數,我就自己寫了一個函數,類似直方圖的工作,這是畫水平條形圖的數據准備。至於為什么要畫水平條形圖,當類別太多,使用水平條形圖比較簡潔,個人看法。下面給出代碼,就不解釋代碼含義了。
1 def data_count(dataa, r1, r2, step): 2 r = pd.DataFrame(np.random.randn(1, 2)) 3 r.drop(0, inplace=True) 4 while r1+step <= r2: 5 num = 0 6 for j in range(len(dataa)): 7 if dataa[j] >= r1 and dataa[j] < r1+step: 8 num = num + 1 9 f = "%s~%d" % (r1, r1+step) 10 # r = r.append([[int(r1), num], ]) # 使用單數表示 11 r = r.append([[f, num], ]) # 使用范圍表示 12 r1 = r1 + step 13 return r
要注意的數據范圍只包含上界不含下界,數據公式這樣子${\text{1}} \leqslant data < 5$,只含上界,這樣就可以做出不重不漏。
2、頻數計算
這是運用data_count函數(上面代碼)進行頻數計算的演示,首先看一下原數據長什么樣,暫時麻煩就不公布了,你們自己按照自己的數據決定。

原數據
測試data_count函數代碼:
1 data_gap1 = data_count(g11[:], 1, 51, 1) 2 data_gap2 = data_count(g22[:], 1, 51, 1)
很簡單啦,就是函數的調用,你們都會的,給大家看一下輸出結果,如下圖:

輸出結果
感覺相當完美,函數也很萬能,只要輸入最小值最大值和間隔,就能出頻數分布表
3、水平條形圖
def plot_bar(plot_data, title): plt.figure(figsize=(10, 15)) y = plot_data.iloc[:, 1].values tt = list(range(len(y))) index = plot_data.iloc[:, 0].values plt.bar(left=0, bottom=list(range(len(y))), width=y, color='blue', height=0.5, orientation='horizontal') # 水平對應bottom&width, height表示bar的寬度 plt.yticks(tt, index) plt.ylabel('數據范圍') plt.xlabel('頻數') plt.title(title) plt.show()
上面中plt.bar(left=0, bottom=list(range(len(y))), width=y, color='blue', height=0.5,orientation='horizontal')這句代碼是最重要的,其中left表示直方圖的開始的位置(也就是最左邊的地方),height是指直方圖的高度,當直方圖太粗時,可以通過width來定義直方圖的寬度,注意多個直方圖要用元組,yerr這個參數是防止直方圖觸頂。orientation='horizontal'指得水平條形圖,使用barh方法可以省略這個參數得設定。
有個坑,如果直接用bottom=類別數據,文本格式的類別會亂序,需要像我那樣先指定位置,在指定類別,如plt.yticks(tt, index)所作的工作。

水平條形圖
