統計學（賈俊平）學習筆記（一）

本文轉載自查看原文 2017-09-15 17:34 4044

爭取每天一更！學習使我進步！學習使我快樂！因為統計學已經學完兩年了有些忘記了而且學的是日語教材和中文對不上號所以要從新總結一下！

9.16 fry

第一章導論

概念

定義1.1 統計學（statistics）收集，分析，表述和解釋數據的科學。

定義1.2 描述統計（descriptive statistics）是研究數據收集，整理和描述的統計學分支。

定義1.3 推斷統計（inferential satatistics)是研究如何利用樣本數據來推斷總體特征的統計學分支。

定義1.4 只能歸於某一類別的非數字型數據，稱為分類數據（catagorical data）

定義1.5 只能歸於某一有序類別的非數字型數據，順序數據（rank data）

定義1.6 按數字尺度測量的觀測值，數值型數據（metric data）

定義1.7 通過調查或觀測而收集到的數據，成為觀測數據（observational data）

定義1.8在實驗中控制實驗對象而收集的數據，成為實驗數據（experimental data）

定義1.9 在相同或相近的時間點上收集的數據，稱為截面數據（cross-sectional data）

定義1.10 在不同時間上收集到的數據，稱為時間序列數據（time-series data）

1.3.1

定義1.11 包含所有研究的全部個體（數據）的集合，稱為總體（population）

定義1.12 從總體中抽取的一部分元素的集合，樣本（sample）

定義1.13構成樣本的元素的數目，樣本容量（sample size）

1.3.2

定義1.14 用來描述總體特征的概括性數字度量，稱為參數（parameter）

定義1.15 用來描述樣本特征的概括性數字度量，稱為統計量（statistic）

1.3.3 變量

定義1.16 說明現象某種特征的概念，稱為變量（variable）

定義1.17 說明事物類別的一個名稱，分類變量（categorical variable）性別，

定義1.18 說明事物有序類別的一個名稱，順序變量（rank variable）受教育程度，一等品，二等品

定義1.19說明事物數字特征的一個名稱，數值型變量（metric variable）

定義1.20 只能取可數（三聲）值的變量，離散性變量（discrete variable）

定義1.21 可以在一個或多個區間中取任何值的變量，成為連續型變量(continuous variable)

第2章數據收集

2.1.2數據的直接來源調查觀察和實驗

統計調查方式

定義2.1 從總體中隨機抽取一部分單位作為樣本進行調查，並根據樣本調查結果來推斷總體特征的數據收集方法，稱為抽樣調查（sampling survey）

定義2.2為特定目的而專門組織的全面調查，稱為普查（census）

定義2.3 按照國家有關法規的規定，自上而下統一布置，自下而上地逐級提供基本統計數據的調查方式，統計報表（statistical report forms）

2 數據的收集方法

問卷邏輯之類的略

第三章數據整理與展示

3.1 數據的預處理

3.1.1數據審核

原始數據（raw data）完整性，准確性審核

數據篩選（data filter）

3.1.3 數據排序

遞增遞減

3.2 分類和順序數據的整理和展示

3.2.1 分類數據的整理與圖示

定義3.1 落在某一特定類別(或組）中的數據個數，稱為頻數（frequency）

定義3.2把各個類別及落在其中的相應頻數全部列出，並用表格形式表現出來，稱為頻數分布（frequency distribution）可用excel統計

分類數據的圖示

條形圖（bar chart）分類數據分布

餅圖（pie chart）各部分所占比例

3.2.2順序數據的整理與圖示

累積頻數和累積頻率

定義3.6 將各有序類別或組的頻數逐級累加起來得到的頻數，稱為累積頻數（cumulative frequencies）=SUM($A$2:A2)

定義3.7將各有序類別或組的百分比逐級累加起來，稱為累積頻率或累積百分比（cumulative percentages）求百分比時候算出合計絕對引用 =A2/$A$7 ，累計的話如上

2.順序數據的圖示

（1）累積頻數分布圖。（2）環形圖（annular chart）每個環可以分開統計比例

3.3數值型數據的整理與顯示

定義3.8 根據統計研究的需要，將原始數據按照某種標准划分成不同的組別，成為數據分組

定義3.9 分組后的數據稱為分組數據（grouped data）

定義3.10 把每一個變量值作為一組，稱為單變量值分組。

定義3.11將全部變量值依次划分為若干個區間，並將這一區間的變量值作為一組，稱為組距分組。

定義3.12在組距分組中，一個組的最小值稱為下限（low limit）；一個組的最大值稱為上限（uppper limit）。

第1步：確定組數。一組數據分多少組合適呢?一般與數據本身的特點及數據的多少有關。由於分組的目的之一是觀察數據分布的特征，因此組數的多少應適中。如果組數太少，數據的分布就會過於集中，組數太多，數據分布就會過於分散，這都不便於觀察數據分布的特征和規律。組數的確定應以能夠顯示數據的分布特征和規律為目的。一般情況下，一組數據所分的組數應不少於5組且不多於15組。實際應用時，可根據數據的多少和特點及分析要求來確定組數。

第2步：確定各組的組距。組距是一個組的上限與下限的差。（定義3.13 class width）

組距可根據全部數據的最大值和最小值及所分的組數來確定，及組距=（最大值-最小值）/組數。

第3步：根據分組整理成頻數分布表。 ^[2] 要先找出每個個案對應的組別再用vlookup 匹配在做一個數據透視表

sturges提出的經驗公式

可以按斯特奇斯（Sturges）提出的經驗公式來確定組數K：

　　 $K=1+\frac{lg n}{lg 2}$

來源：http://wiki.mbalib.com/wiki/組數

函數語法：FREQUENCY(data_array,bins_array)。
函數語法可以通過Excel 2007的幫助文件查找詳細講解。
使用此頻數函數時，第一步建立數據表格中先將樣本數據排成一列。
第五步設置完成后不要點擊確定，由於頻數分布是數組操作，所以不能單擊“確定”按鈕，要按“Ctrl+Shift+Enter” 組合鍵。
本例是按800~900、900~1000、1000~1100、1100~1200、1200~1300、1300~1400、1400~1500、1500~1600、1600以上，分為9個組進行頻數分析。這就是第五步中【Bins_array】設置的區間。

來自百度經驗

定義3.14 在組距分組時，如果各組的組距相等，稱為等距分組。

定義3.15 在組距分組時，如果各組的組距不相等，稱為不等距分組。

定義3.16每一組的下限和上限之間的中點值，稱為組中值(class midpiont）（下限值+上限值）/2

3.3.2數值型數據的展示

分組數據：直方圖

定義3.17 用矩形的寬度和高度（即面積）來表示頻率分布的圖形，稱為直方圖。（histogram）

2.未分組數據

（1）莖葉圖

定義3.18 由莖，葉兩部分組成的，反應原始數據分布的圖形，（stem-and-leaf display）

可以看出數據分布和離散狀況是否對稱是否集中離群點

莖葉圖是一個與直方圖相類似的特殊工具，但又與直方圖不同，莖葉圖保留原始資料的資訊，直方圖則失去原始資料的訊息。將莖葉圖莖和葉逆時針方向旋轉90度，實際上就是一個直方圖，可以從中統計出次數，計算出各數據段的頻率或百分比。從而可以看出分布是否與正態分布或單峰偏態分布逼近。

下面有一堆數據共30個

89 79 57 46 1 24 71 5 6 9 10 15 16 19 22 31 40 41 52 55 60 61 65 69 70 75 85 91 92 94

畫出的莖葉圖如下：

莖|葉

0 | 1 5 6 9

1 | 0 5 6 9

2 | 2 4

3 | 1

4 | 0 1 6

5 | 2 5 7

6 | 0 1 5 9

7 | 0159

8 | 5 9

9 | 1 2 4

比如第二行的數字如下：

1 | 0 5 6 9

則代表數據集中有10，15，16，19四個數字

可以這樣理解莖+葉=實際的數值,如 1|0569 中莖值為1,葉值為 0,5,6,9 共四個葉值.

其真實數值計算方式:莖值連接葉值 .莖值:1葉值0連接起來就是10.

（2）箱線圖

定義3.19 由一組數據的最大值，最小值，中位數和兩個四分位數5個特征值繪制而成的，反應原始數據分布的圖形，（box plot)

還有一個u型分布

就是沒有兩邊的尾巴

另外今天聽了一節可汗學院的統計課學了箱形圖看異常值

3 時間序列數據：線圖（line plot）

時間一般在橫軸

4.多變量數據：雷達圖（radar chart）

3.4 統計表

第4章數據的概括性度量

4.1 數據的集中趨勢（central tendency）和度量

4.1.1分類數據：眾數

定義4.1.1一組數據中出現次數最多的變量值，稱為眾數（mode），用M_o表示。看集中趨勢數據量越大才有意義

4.1.2順序數據：中位數和分位數

定義4.2 一組數據排序后處於中間位置上的變量值，稱為中位數（median），用M_e來表示。

2 分位數

四分位數（quartile），十分位數（decile）和百分位數（percentile）等

定義4.3 一組數據排序后處於25%和75%位置上的值，成為四分位數，四分位點。

首先確定四分位數的位置：

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

4.1.3數值型數據：平均數

定義4.4一組數據相加后除以數據的個數所得的結果。mean

算數平均數

加權平均數（weighted mean）

此外，加權平均值也可用下圖表示，其中

表示權數。

理解方法：將原式看作

即可。

定義4.5 各個變量值倒數的平均倒數，稱為調和平均數（harmomic mean）

定義4.6 n個變量值乘積的n次方根，成為幾何平均數（geometric mean）

例：假定某地儲蓄年利率（按復利計算）：5%持續1.5年，3%持續2.5年，2.2%持續1年。請問此5年內該地平均儲蓄年利率。

解：由

得到該地平均儲蓄年利率：

計算幾何平均數要求各觀察值之間存在連乘積關系，它的主要用途是： ^[3]

1、對比率、指數等進行平均；

2、計算平均發展速度；

其中：樣本數據非負，主要用於對數正態分布。

3、復利下的平均年利率；

4、連續作業的車間求產品的平均合格率。

4.1.4眾數，中位數，平均數的比較

左偏：數據存在極小值，必然拉動平均數向極小值靠近，眾，中不受影響。x平<中位數《眾

右偏眾《中《平

4.2 離散程度的度量

定義4.7 非眾數組的頻數占總頻數的比率，稱為異眾比率（variation ratio） V _r表示。

衡量眾數對數據的代表程度。

4.2.2順序數據：四分位差計算數據離散程度

定義4.8 上四分位與下四分位數之差，稱為四分位差（quaritle deviation），也稱為內距或四分間距（inter-quartile range）用Q _d表示。

四分位差計算公式 Q _d=Q _u-Q _L

4.2.3 數值型數據：方差和標准差

極差

定義4.9 一組數據的最大值與最小值之差稱為極差（range） R

R=max-min

平均差

定義4.10 各個變量值與其平均數利差的絕對值的平均數，稱為平均差（mean deviation）M _d

定義4.11 各個變量值與其平均數離差的平均數，成為方差。

設總體方差為 $σ 2 ，對於未經分組整理的原始數據，方差的計算公式為：$

　　 $\sigma^2=\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}$

　　對於分組數據，方差的計算公式為：

　　 $\sigma^2=\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}$

　　方差的平方根即為標准差，其相應的計算公式為：

　　未分組數據： $\sigma=\sqrt{\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}}$

　　分組數據： $\sigma=\sqrt{\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}}$

n個樣本的自由度應該是n，但是把平均值去掉之后，這個n個樣本組成的向量就滿足了一個線性條件，也就是只能在一個維度是n-1的空間里取值，所以自由度變小了。degree of freedom

標准計算公式：

假設有一組數值X₁,X₂,X₃,......Xn（皆為實數），其平均值（算術平均值）為μ，公式如圖1。

標准差也被稱為標准偏差，或者實驗標准差，公式為

。

簡單來說，標准差是一組數據平均值分散程度的一種度量。一個較大的標准差，代表大部分數值和其平均值之間差異較大；一個較小的標准差，代表這些數值較接近平均值。

4.2.4 標准分數

定義4.13 變量值與其平均數的離差除以標准差后的值，稱為標准分數（standard score） z分數

標准分數=（觀察分數 - 平均分）/標准差

標准分數平均數為0 標准差為1

切比雪夫不等式

任意一個數據集中，位於其平均數m個標准差范圍內的比例（或部分）總是至少為1－1/m ²，其中m為大於1的任意正數。對於m=2，m=3和m=5有如下結果：

所有數據中，至少有3/4（或75%）的數據位於平均數2個標准差范圍內。

所有數據中，至少有8/9（或88.9%）的數據位於平均數3個標准差范圍內。

所有數據中，至少有24/25（或96%)的數據位於平均數5個標准差范圍內 ^[2] 。

4.2.5 相對離散程度：離散系數

一組數據的標准差預其相應的平均數之比，稱為離散系數（coefficient of variation) 變異系數

用於比較不用樣本的離散程度，離散系數大小代表離散程度大小。

變異系數的計算公式為：

　　 $C.V=\frac{S}{\bar{x}}\times 100%$

　　變異系數越小，變異(偏離)程度越小，風險也就越小；反之，變異系數越大，變異(偏離)程度越大，風險也就越大。

　　例：已知某良種豬場A種成年母豬平均體重為190kg，標准差為10.5kg，而B種成年母豬平均體重為196kg，標准差為8.5kg，試問兩個品種的成年母豬，那一個體重變異程度大。

　　此例觀測值雖然都是體重，單位相同，但它們的平均數不相同，只能用變異系數來比較其變異程度的大小。

　　由於，A種成年母豬體重的變異系數： $C.V=\frac{10.5}{190}\times 100%=5.53%$

　　B種成年母豬體重的變異系數： $C.V=\frac{8.5}{196}\times 100%=4.34%$

　　所以，A種成年母豬體重的變異程度大於B種成年母豬。

　　注意，變異系數的大小，同時受平均數和標准差兩個統計量的影響，因而在利用變異系數表示資料的變異程度時，最好將平均數和標准差也列出。

4.3 偏態與峰態的度量

4.3.1偏態及其測度

定義4.15 數據分布的不對稱性，稱為偏態（shewness）

定義4.16 對數據分布不對稱性的度量值，稱為偏態系數。記作SK。

偏度是利用3階矩定義的，偏度的計算公式為：

　　 $S_k=\frac{\mu_3}{\mu_2^{\frac{3}{2}}}=\frac{\mu_3}{\sigma^3}$

　　式中， $S k ——偏度；$

　　 $μ 3 ——3階中心矩；$

　　 $σ—— 標准差。$

　　在一般情形下，當統計數據為右偏分布時， $S k > 0，且 S k 值越大，右偏程度越高；當統計數據為左偏分布時， S k < 0，且 S k 值越小，左偏程度越高。當統計數據為對稱分布時，顯然有 S k = 0。$

4.3.2 峰態及其測度

定義4.17 數據分布的平峰或尖峰程度，稱為峰態，（kurtosis）

定義4.18 對數據分布的峰態的度量值，峰態系數。K

峰度的測定，一般是采用統計動差方法，即以四階中心動差 $V 4 為測定依據，將V4除以其標准差的四次方 σ 4 ，以消除單位量綱的影響，便於不同次數分布曲線的峰度比較，從而得到以無名數表示的相對數，即為峰度的測定值（ β）。計算公式為：$

　　 $\beta=\frac{V_4}{\sigma^4}=\frac{\frac{\sum(X_\bar{X})^4f}{\sum f}}{\sigma^4}$

　　　　由統計計算分析可知，當次數分布為正態分布曲線時， $β = 3，以此為標准就可比較分析各種次數分布曲線的峰度。當 β > 3時，表示分布曲線呈尖頂峰度，為尖頂曲線，說明變量值的次數較為密集地分布在眾數的周圍， β值越大於3，分布曲線的頂端越尖峭。當 β < 3時，表示分布曲線呈平頂峰度，為平頂曲線，說明變量值的次數分布比較均勻地分散在眾數的兩側， β值越小於3，則分布曲線的頂峰就越平緩。一般當 β值接近於1.8時，分布曲線呈水平矩形分布形態，說明各組變量值的次數相同。當 β值小於1.8時，次數分布曲線趨向“U”型分布。實際統計分析中，通常將偏度和峰度結合起來運用，以判斷變量分布是否接近於正態分布。$

$前4章完$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 可汗學院統計學學習筆記統計學第七版學習筆記學習統計學，必看的書單推薦用Python學習統計學基礎-4 數據挖掘和統計學的區別（guide to Intelligent data analysis學習筆記）統計學筆記-描述性統計《統計學習方法》學習筆記《漫畫統計學》統計學認識統計學習方法筆記 -- 概論