1. 基礎知識 (直方圖 柱狀圖 正態分布 模型 抽樣分布 )


前言

這個系列的筆記是StatQuest視頻的學習筆記,我的這些筆記有時候會使用一些自己以前收錄的數據,外加自己補充的一些筆記。此篇筆記是基礎知識,視頻教程的1-5。

一.什么是直方圖

如果我們測量一批人的身高,他們的身高並不固定,因此我們先做一個x軸,從左到右身高依次增高,如下所示:

 
 

此時,我們開始測量這批人的身高,一個點代表一個人,如下所示:

 
 

這種圖有個缺陷,就是一些相同身高的人的點會重合,並不直觀,因此我們可以轉換一下圖形,把相同身高的人的點疊加起來,如下所示:

 
 

這樣的話, 我們就能很清楚地看到這批人身高的統計情況,這種圖形可以叫直方圖(histogram),直方圖的下端(也就是x軸)的數據是連續的,可以自己設定,從圖中可以明顯看到,中間的人的點數多,兩邊的人點數少。

再進一步,我們可以使用“分布(distribution)”這個術語來表示我們這次測量的為數據,將這些數據點的頂端用一個近似曲線連接起來,就成了下面的這個樣子:

 
 

這種圖形類似於一個鍾型(bell)我們可以稱它為正態分布(normal distribution),如果我們測量出來的數據是下面的這個樣子,它就呈現一種指數分布(exponential distribution):

 
 

直方圖的特點

 

 

如果我們在測量這批人的數據時,以0.5英尺(約合30cm)為單位,也就是說,在繪制直方圖時,x軸的坐標上的寬度分布是這個樣子的:
 
 

 

 

可以看到,這次測量把這批人的身高數據划分了4份,分別為小於5,5到5.5,5.5到6,大於6。如果改變一下,把數據划分為8份,也就是說最小的單位值是0.25,就是下面的這個樣子:
 
 

 

 

如果測量更多的人,使用更加小的划分單位,我們就會得到一個對人體身高更加精確的估計值,下圖是划分了18份,如下所示:
 
 

 

 

並且還可以畫出一條曲線(curve),對這批數據進行估計,如下所示:
 
 

 

 

從這張圖上我們可以得到以下信息:
 
 

 

 

測量一個人,得到這個低於4.5或高於6.5的概率比較低,而很大的概率會得到曲線中間凸出來的部分。
使用 曲線來估計一批人數據比直方圖更有優勢。
 
第一,直方圖有時候並不准,例如上圖右側藍箭頭這部分數據並沒有測到,如果換一批人,就有可能測到;
第二,使用曲線時,並不用考慮最小數據的分隔單位,就能估計一個數值的概率,例如我們要計算得到5.021和5.317這個數據的概率有多大,就直接利用曲線就能得到。
第三,人的精力與資源有限,直接去測量大批數據並不現實,而估計一條曲線只需要我們手中少量數據的標准差與均值即可。
 
 

 

 

在這張圖里,直方圖與曲線都表示這批數據的分布,其中曲線的最高處以及直方圖的中間地帶,都是最有可能測量到的部分。除了這種正態分布的圖形外,還有其他的分布(下圖左上是 正態分布,右上是 指數分布,左下是 均勻分布),如下所示:
 
 

直方圖與柱狀圖的區別

 

 

直方圖x軸上的組距是連續的,從上面的圖形可以得知,測量的身高的不同划分是小於5,5到5.5,5.5到6,6以上。
而柱狀圖的x軸上通常是一些分類的數據類型,看下圖:
 
 

這張圖就是一個柱狀圖(有人也稱條形圖),它的x軸是不連續的,只是一些分類變量。

二.正態分布

先看一下正態分布圖形,就是上一部分中的身高分布數據,如下所示:

 
 

從圖形上可以看到正態分布的特點:

  1. 左右對稱,因此也叫鍾型曲線(bell shaped curve);
  2. 中間凸起,兩側平緩。

 

 

再看另外的兩個正態分布圖形:
 
 

其中,左側綠線表示的是出生的嬰兒的身高分布(英寸),右側的划線表示的是成人身高的分布,從這兩個曲線上我們可以得到這些信息:

  1. 嬰兒的正態分布曲線比較尖銳,這表示嬰兒身高比較集中,成人身高的正態分布曲線比較平緩,這表示成人身高比較分散;
  2. 成人身高的平均值要高於嬰兒身高的平均值。

 

再看一下嬰兒和成人身高的95%的集中程度:
 
 

自然界的很多事物都符合正態分布,其背后的一個原理就是中心極限定理(the central limit theorem),以后的筆記會提到。

三.模型

模型,英文是指“model”。

在統計學中,模型是指對現實世界中的一些事情的抽象處理,數據模型使用一些表格,圖表,公式來研究現實世界中的一些規律,例如下圖就是使用一個圖表和公式來表示小鼠的體重與大小的關系:

 
 

有時候,圖形不一定是直線,也有可能是曲線,如下所示:

 
 

四.抽樣分布

 

 

下圖是一個直方圖,一個點表示一個人的身高:
 
 

 

 

然后用一條曲線來表示數據的分布:
 
 

 

 

如果我們從這個分布里面隨機抽出一個樣本的話,有很大的概率會抽到中間的這一部分,就是下圖中黑色圓角矩形表示的區域:
 
 

 

 

如果我們使用某個程序(例如R語言)隨機地從服從正態分布的數據中挑出許多樣本,然后對它們進行統計的話,看一下會發生哪些事情,例如從下面的這個正態分布中隨機地挑出兩個樣本,一個樣本的數量是3(一個樣本不一定只是一個數據點),如下所示:
 
 

 

 

然后對這兩個樣本進行t檢驗,由於它們都是來源於同不一個分布,因此t檢驗結果的p值會很大(也就是說p很有可能大於0.05)。如果這兩個樣本是來源兩個不同的分布,如下所示:
 
 

那么經過t檢驗,得到的p值就會很小。

如果想到得到較小的p值,這就可能要增加樣本,或者是就此為止(增加樣本涉及到一類錯誤與二類錯誤,這里不表)。





免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM