前言
這個系列的筆記是StatQuest視頻的學習筆記,我的這些筆記有時候會使用一些自己以前收錄的數據,外加自己補充的一些筆記。此篇筆記是基礎知識,視頻教程的1-5。
一.什么是直方圖
如果我們測量一批人的身高,他們的身高並不固定,因此我們先做一個x軸,從左到右身高依次增高,如下所示:

此時,我們開始測量這批人的身高,一個點代表一個人,如下所示:

這種圖有個缺陷,就是一些相同身高的人的點會重合,並不直觀,因此我們可以轉換一下圖形,把相同身高的人的點疊加起來,如下所示:

這樣的話, 我們就能很清楚地看到這批人身高的統計情況,這種圖形可以叫直方圖(histogram),直方圖的下端(也就是x軸)的數據是連續的,可以自己設定,從圖中可以明顯看到,中間的人的點數多,兩邊的人點數少。
再進一步,我們可以使用“分布(distribution)”這個術語來表示我們這次測量的為數據,將這些數據點的頂端用一個近似曲線連接起來,就成了下面的這個樣子:

這種圖形類似於一個鍾型(bell)我們可以稱它為正態分布(normal distribution),如果我們測量出來的數據是下面的這個樣子,它就呈現一種指數分布(exponential distribution):

直方圖的特點
如果我們在測量這批人的數據時,以0.5英尺(約合30cm)為單位,也就是說,在繪制直方圖時,x軸的坐標上的寬度分布是這個樣子的:

可以看到,這次測量把這批人的身高數據划分了4份,分別為小於5,5到5.5,5.5到6,大於6。如果改變一下,把數據划分為8份,也就是說最小的單位值是0.25,就是下面的這個樣子:

如果測量更多的人,使用更加小的划分單位,我們就會得到一個對人體身高更加精確的估計值,下圖是划分了18份,如下所示:

並且還可以畫出一條曲線(curve),對這批數據進行估計,如下所示:

從這張圖上我們可以得到以下信息:

測量一個人,得到這個低於4.5或高於6.5的概率比較低,而很大的概率會得到曲線中間凸出來的部分。

在這張圖里,直方圖與曲線都表示這批數據的分布,其中曲線的最高處以及直方圖的中間地帶,都是最有可能測量到的部分。除了這種正態分布的圖形外,還有其他的分布(下圖左上是 正態分布,右上是 指數分布,左下是 均勻分布),如下所示:

直方圖與柱狀圖的區別
直方圖x軸上的組距是連續的,從上面的圖形可以得知,測量的身高的不同划分是小於5,5到5.5,5.5到6,6以上。

這張圖就是一個柱狀圖(有人也稱條形圖),它的x軸是不連續的,只是一些分類變量。
二.正態分布
先看一下正態分布圖形,就是上一部分中的身高分布數據,如下所示:

從圖形上可以看到正態分布的特點:
- 左右對稱,因此也叫鍾型曲線(bell shaped curve);
- 中間凸起,兩側平緩。
再看另外的兩個正態分布圖形:

其中,左側綠線表示的是出生的嬰兒的身高分布(英寸),右側的划線表示的是成人身高的分布,從這兩個曲線上我們可以得到這些信息:
- 嬰兒的正態分布曲線比較尖銳,這表示嬰兒身高比較集中,成人身高的正態分布曲線比較平緩,這表示成人身高比較分散;
- 成人身高的平均值要高於嬰兒身高的平均值。
再看一下嬰兒和成人身高的95%的集中程度:

自然界的很多事物都符合正態分布,其背后的一個原理就是中心極限定理(the central limit theorem),以后的筆記會提到。
三.模型
模型,英文是指“model”。
在統計學中,模型是指對現實世界中的一些事情的抽象處理,數據模型使用一些表格,圖表,公式來研究現實世界中的一些規律,例如下圖就是使用一個圖表和公式來表示小鼠的體重與大小的關系:

有時候,圖形不一定是直線,也有可能是曲線,如下所示:

四.抽樣分布
下圖是一個直方圖,一個點表示一個人的身高:

然后用一條曲線來表示數據的分布:

如果我們從這個分布里面隨機抽出一個樣本的話,有很大的概率會抽到中間的這一部分,就是下圖中黑色圓角矩形表示的區域:

如果我們使用某個程序(例如R語言)隨機地從服從正態分布的數據中挑出許多樣本,然后對它們進行統計的話,看一下會發生哪些事情,例如從下面的這個正態分布中隨機地挑出兩個樣本,一個樣本的數量是3(一個樣本不一定只是一個數據點),如下所示:

然后對這兩個樣本進行t檢驗,由於它們都是來源於同不一個分布,因此t檢驗結果的p值會很大(也就是說p很有可能大於0.05)。如果這兩個樣本是來源兩個不同的分布,如下所示:

那么經過t檢驗,得到的p值就會很小。
如果想到得到較小的p值,這就可能要增加樣本,或者是就此為止(增加樣本涉及到一類錯誤與二類錯誤,這里不表)。