1. 基礎知識 (直方圖柱狀圖正態分布模型抽樣分布 ) - 碼上歡樂

相關內容簡體繁體

1. 基礎知識 (直方圖柱狀圖正態分布模型抽樣分布 )

本文轉載自查看原文 2018-11-17 11:00 1899 StatQuest生物統計學專題

前言

這個系列的筆記是StatQuest視頻的學習筆記，我的這些筆記有時候會使用一些自己以前收錄的數據，外加自己補充的一些筆記。此篇筆記是基礎知識，視頻教程的1-5。

一.什么是直方圖

如果我們測量一批人的身高，他們的身高並不固定，因此我們先做一個x軸，從左到右身高依次增高，如下所示：

此時，我們開始測量這批人的身高，一個點代表一個人，如下所示：

這種圖有個缺陷，就是一些相同身高的人的點會重合，並不直觀，因此我們可以轉換一下圖形，把相同身高的人的點疊加起來，如下所示：

這樣的話，我們就能很清楚地看到這批人身高的統計情況，這種圖形可以叫直方圖（histogram），直方圖的下端（也就是x軸）的數據是連續的，可以自己設定，從圖中可以明顯看到，中間的人的點數多，兩邊的人點數少。

再進一步，我們可以使用“分布（distribution）”這個術語來表示我們這次測量的為數據，將這些數據點的頂端用一個近似曲線連接起來，就成了下面的這個樣子：

這種圖形類似於一個鍾型（bell）我們可以稱它為正態分布（normal distribution），如果我們測量出來的數據是下面的這個樣子，它就呈現一種指數分布（exponential distribution）：

直方圖的特點

如果我們在測量這批人的數據時，以0.5英尺（約合30cm）為單位，也就是說，在繪制直方圖時，x軸的坐標上的寬度分布是這個樣子的：

可以看到，這次測量把這批人的身高數據划分了4份，分別為小於5，5到5.5，5.5到6，大於6。如果改變一下，把數據划分為8份，也就是說最小的單位值是0.25，就是下面的這個樣子：

如果測量更多的人，使用更加小的划分單位，我們就會得到一個對人體身高更加精確的估計值，下圖是划分了18份，如下所示：

並且還可以畫出一條曲線（curve），對這批數據進行估計，如下所示：

從這張圖上我們可以得到以下信息：

測量一個人，得到這個低於4.5或高於6.5的概率比較低，而很大的概率會得到曲線中間凸出來的部分。

使用曲線來估計一批人數據比直方圖更有優勢。

第一，直方圖有時候並不准，例如上圖右側藍箭頭這部分數據並沒有測到，如果換一批人，就有可能測到；

第二，使用曲線時，並不用考慮最小數據的分隔單位，就能估計一個數值的概率，例如我們要計算得到5.021和5.317這個數據的概率有多大，就直接利用曲線就能得到。

第三，人的精力與資源有限，直接去測量大批數據並不現實，而估計一條曲線只需要我們手中少量數據的標准差與均值即可。

在這張圖里，直方圖與曲線都表示這批數據的分布，其中曲線的最高處以及直方圖的中間地帶，都是最有可能測量到的部分。除了這種正態分布的圖形外，還有其他的分布（下圖左上是 正態分布，右上是 指數分布，左下是 均勻分布），如下所示：

直方圖與柱狀圖的區別

直方圖x軸上的組距是連續的，從上面的圖形可以得知，測量的身高的不同划分是小於5，5到5.5，5.5到6，6以上。

而柱狀圖的x軸上通常是一些分類的數據類型，看下圖：

這張圖就是一個柱狀圖（有人也稱條形圖），它的x軸是不連續的，只是一些分類變量。

二.正態分布

先看一下正態分布圖形，就是上一部分中的身高分布數據，如下所示：

從圖形上可以看到正態分布的特點：

左右對稱，因此也叫鍾型曲線（bell shaped curve）；
中間凸起，兩側平緩。

再看另外的兩個正態分布圖形：

其中，左側綠線表示的是出生的嬰兒的身高分布（英寸），右側的划線表示的是成人身高的分布，從這兩個曲線上我們可以得到這些信息：

嬰兒的正態分布曲線比較尖銳，這表示嬰兒身高比較集中，成人身高的正態分布曲線比較平緩，這表示成人身高比較分散；
成人身高的平均值要高於嬰兒身高的平均值。

再看一下嬰兒和成人身高的95%的集中程度：

自然界的很多事物都符合正態分布，其背后的一個原理就是中心極限定理（the central limit theorem），以后的筆記會提到。

三.模型

模型，英文是指“model”。

在統計學中，模型是指對現實世界中的一些事情的抽象處理，數據模型使用一些表格，圖表，公式來研究現實世界中的一些規律，例如下圖就是使用一個圖表和公式來表示小鼠的體重與大小的關系：

有時候，圖形不一定是直線，也有可能是曲線，如下所示：

四.抽樣分布

下圖是一個直方圖，一個點表示一個人的身高：

然后用一條曲線來表示數據的分布：

如果我們從這個分布里面隨機抽出一個樣本的話，有很大的概率會抽到中間的這一部分，就是下圖中黑色圓角矩形表示的區域：

如果我們使用某個程序（例如R語言）隨機地從服從正態分布的數據中挑出許多樣本，然后對它們進行統計的話，看一下會發生哪些事情，例如從下面的這個正態分布中隨機地挑出兩個樣本，一個樣本的數量是3（一個樣本不一定只是一個數據點），如下所示：

然后對這兩個樣本進行t檢驗，由於它們都是來源於同不一個分布，因此t檢驗結果的p值會很大（也就是說p很有可能大於0.05）。如果這兩個樣本是來源兩個不同的分布，如下所示：

那么經過t檢驗，得到的p值就會很小。

如果想到得到較小的p值，這就可能要增加樣本，或者是就此為止（增加樣本涉及到一類錯誤與二類錯誤，這里不表）。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Matplotlib---柱狀圖、直方圖(高斯分布) 直方圖與柱狀圖的區別 matplotlib繪制直方圖【柱狀圖】在頻數直方圖上繪制正態分布曲線使用Python繪制直方圖和正態分布曲線 matplotlib 柱狀圖、餅圖；直方圖、盒圖第七周作業-使用Python實現抽樣分布的驗證(正態分布、卡方分布、T分布等) pyhton matplotlib可視化圖像基礎（二維函數圖、柱狀圖、餅圖、直方圖以及折線圖） Python實現抽樣分布的驗證(正態分布、卡方分布、T分布) 1. 基礎概念 (統計分布抽樣置信區間標准差)

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM