學習之前,需強調:概率是已知模型和參數,推數據;而統計是已知數據,推模型和參數。
第十二集:樣本與總體
首先,為何需要樣本呢?因為人類並不能總是獲取總體數據,例如:人類的身高數據,全世界每秒都有人出生和死去,要獲取總體數據是不現實的,故需要樣本。樣本就是從總體中抽取的一部分數據,人類希望用樣本來估計總體,這樣做可以節省人力物力而且可行,對么?其次,在統計學中,樣本的均值通常用,總體的均值用
。均值,中位數,眾數是用來衡量數據集中趨勢。
第十三集:總體方差
總體方差是用來描述總體數據離散程度的統計工具。即數據偏離總體中間水平的程度,用符號來表示,請注意這是總體方差。下面會講述樣本方差。
第十四集:樣本方差
總體方差是用來描述樣本數據離散程度的統計工具。即數據偏離樣本中間水平的程度,用符號來表示,具體計算如圖1,需注意均值為樣本均值
。圖1算樣本方差存在一個問題:就是樣本集的選擇問題,由於事前不知道樣本的分布,選擇樣本集求均值時,容易出現偏差,如紫色的點,選取前四個會讓樣本均值偏大,從而導致樣本方差低於總體方差。為避免這種情況,提供無偏估計,我們定義無偏樣本方差
。如圖2所示。
第十五集:標准差
標准差就是方差開平方,用表示。意義與方差一樣,優點是直觀。注意總體方差與樣本方差的區別和聯系。
第十六集:諸方差公式
為了更快的計算方差,給出方差化簡后的公式。黃線圈住的。
第十七集:隨機變量介紹
隨機變量與普通變量不同,因為隨機變量通常是一個函數,用於量化隨機過程。通常用大寫字母X,Y,Z等表示,而傳統變量通常用小寫字母x,y,z表示。隨機變量有兩類:離散型和連續型。例如:明天是否下雨,用隨機變量X來表示,它只有0,1兩種值即取值有限且不連續,X是離散型隨機變量;而對於明天下雨量,用Y表示,它可以取連續值0.1,0.2,0.5,0.511等,可以是無窮的數據,Y是連續型隨機變量。
第十八集:概率密度函數
建議看這篇博客:https://www.jianshu.com/p/b570b1ba92bb。需要指出的是概率密度函數是針對連續性隨機變量而言的。
第十八集-----二十二集 二項分布
這幾節主要講了二項分布的例子,便於理解。二項分布進階的博客:https://blog.csdn.net/Michael_R_Chang/article/details/39188321。需注意的是二項分布針對的是離散型隨機變量。
第二十三集:期望
隨機變量的期望值其實是總體的均值,但有時由於總體樣本無限多,用均值計算方法很難計算,故提出期望計算均值的方法.其思想是用頻率作為權重計算出所有結果的加權平均值。
第二十四集:二項分布的期望值
對於二項分布的期望計算如圖所示,本課有詳細推導,感興趣可以跟着推導一遍。
第二十五、六集:泊松過程
泊松分布是來自於二項分布。具體參見https://www.matongxue.com/madocs/858.html。在使用泊松分布前,我們應該知道它是用來求取某個時間段內發生事情x的概率有多大且其是離散分布。具體推導可以學習這章內容。
第二十七集 大數定律
大數定律描述了隨機現象最根本的一個性質:平均結果的穩定性。大數定律告訴我們:對於獨立同分布的隨機序列,只要總體均值(隨機變量期望)存在,則隨着樣本數的增加,樣本均值會收斂到總體均值。注意樣本數的足夠性,概率是頻率的一個極限值,這樣可以避免賭徒謬誤。http://blog.sciencenet.cn/blog-677221-1063741.html(賭徒謬誤)
第二十八--三十四集 正態分布
二項分布,泊松分布都是離散分布,而正態分布是連續分布。二項分布和泊松分布都可以轉化為正態分布。泊松分布是,而正太分布是
為無窮大。圖1是正態分布的概率密度函數圖和表達式,圖二是計算時使用的一些經驗法則,具體說:與均值相差一個標准差概率是68%, 兩個標准差概率是95%,三個標准差概率是99.7%。當然具體計算也可以查閱正態分布表。
第三十五集 中心極限定律
該定律是說隨着樣本n越來越大,這n個樣本的m個均值會趨於正態分布。與大數定律的區別在於:大數定律描述的樣本均值趨於總體均值,而中心極限定律描述的是樣本均值的分布。
第三十六、七集 樣本均值的抽樣分布
樣本均值抽樣分布是所有樣本均值抽樣形成的分布。其中偏度與峰度是描述一個分布有多像正態分布的物理量。其中正偏度表示數據正向的多,負偏度表示數據負向的多。峰度反映了鋒部的尖度。
第三十八、九集 均值標准誤差
樣本均值抽樣分布是所有樣本均值抽樣形成的分布。均值標准差是樣本均值抽樣分布的標准差,其和總體標准差的關系為:
第四十、三、四集 置信區間與誤差估計
在樣本估計總體均值時,我們需要知道估計的准確度,因此選定一個區間[a,b],目的是讓這個區間包含總體均值,這個區間叫做置信區間。對於這個區間有多大概率包含總體均值,這個概率稱為置信水平。置信水平是根據實際問題自己確定的,一般設定為95%即兩個標准差。總之:置信區間是我們計算變量的存在范圍,置信水平是我們對這個范圍的可信程度。
置信區間計算方法:首先,計算樣本均值,樣本均值標准差為
。這幾個公式的問題是事先我們並不知道總體的標准差。因此我們需要用估計值來代替
。我們選擇
樣本方差作為總體方差的估計,需注意
是會跟隨樣本的變化而變化的,如圖2所示。其次確定置信水平,最后查找z表格,計算置信區間。
第四十一、二集 伯努利分布
二項分布是n重伯努利實驗成功次數的分布,個人認為放在二項分布之前講解更好。伯努利分布又叫兩點分布或者0-1分布。
第四十六集 小樣本容量置信區間
當樣本數量小於30時,樣本分布不再符合正態分布而是符合T分布。T分布只有一個自由度參數n,當n趨於無窮時,T分布變為標准正態分布,其實T分布只是正態分布的一種近似,是正態分布在小樣本時的形態。計算置信區間的方法和正態分布類似,不同的是要查t分布表而不是z分布表。
第四十七、八集 假設檢驗
假設檢驗與區間估計都是根據樣本信息推斷總體分布。兩者可以相互裝轉換唯一的區別是參數知不知道的問題。舉例來說:統計全校學生(總體)的平均上網時間(參數),如果參數未知,通過樣本進行推斷則是區間估計,如果有人已經得到平均上網時間(參數),而你不知道這個參數可不可靠,則是假設檢驗,換句話說無假設不檢驗。
P值主要是用來判斷不同樣本之間的差異是由抽樣誤差引起的還是總體不同引起的。在零假設條件下得到的概率稱為P值。是判斷標准也稱為拒絕域,若P<
,則拒絕零假設,若相反,則接受零假設。計算P值方法為:1 確定樣本均值與均值標准差,注意樣本均值標准差為
,選擇
樣本方差作為總體方差的估計;2 求Z分數(T分數),查Z表(T表);3 確定概率值即P值。
需要注意一下:雙側檢驗是檢驗樣本平均數和總體平均數有無明顯差異,不管差異方向,如:視頻中的葯對小白鼠是正向作用還是反向作用不管,只管是否有作用;而單側檢驗是考慮方向性的,即是正向作用還是反向作用。
第五十集 第一型錯誤
在假設檢驗中,接受或者拒絕H0,都有概率犯錯誤。第一類錯誤就是原假設為真,而檢驗的結論卻勸你放棄原假設,稱為棄真錯誤,出現的概率記為。如果原假設不是真,而檢驗的結論卻勸你接受原假設稱為取偽錯誤,出現的概率記為
。具體可參見: https://blog.csdn.net/m0_37777649/article/details/74937242
通常把只考慮犯第一類錯誤而不考慮第二類錯誤的假設檢驗稱為顯著性檢驗。一般約定俗成的有:0.05,0.025,0.01.顯著水平與置信水平和為1.
第五十四集 隨機變量之差的方差
這一章主要講了一些推論,例如:獨立變量的和差的期望等於各獨立變量期望之和。
第五十四-六十一集 假設檢驗二
第六十二-七十集 決定系數R2
決定系數反映了Y的波動有多少百分比可以被X波動描述,這個系數是對回歸方程擬合程度的判斷。
其中表示第i個點的真實數據,
表示第i個點的預測數據。SSE也稱為殘差。
其中表示第i個點的真實數據,
表示均值。SST也稱為總平方和,除以n-1,結果就是樣本方差。
SSR稱為殘差平方和,表征預測值的偏離程度。
SST = SSR+SSE
其中稱為決定系數,其值越大,自變量引起的變動占比越高,觀察點在回歸線附近越密集,擬合程度越好。
第六十九-七十集 例題
第七十一集 協方差
度量各個維度偏離其均值的程度。協方差是為多維變量創立的,目的是為了描述兩個變量的關系(正相關,負向關。相互獨立)。需注意協方差只能兩個維度算,多個維度的協方差形成協方差矩陣。
第七十二集 卡方分布
一些服從標准正態隨機變量的平方求和即是分布,其中n為自由度,確定一個式子自由度的方法是:
若式子包含有n個獨立的隨機變量,和由它們所構成的k個樣本統計量,則這個表達式的自由度為n-k.比如中包含ξ1,ξ2,…,ξn這n個獨立的隨機變量,
同時還有它們的平均數ξ這一統計量,因此自由度為n-1.。
第七十三、四集 卡方檢驗
卡方分布可以不用對總體做任何假設,卡方檢驗可以用來衡量觀測與理論之間的擬合程度,或者推斷兩個分類變量是否相關或者獨立。
具體例子可參考:https://blog.csdn.net/bitcarmanlee/article/details/52279907
第七十五、六集 平方和
組內平方和:是每組的值減去每組自己的平均值,求平方和,組間平方和理解為兩組之間的差異。
組間平方和:是每組自己的平均值減去總均值,求平方和,組內平方和理解為兩組內部不同數據的差異。
如圖:這幾集的母的是為了說明總的波動=組內波動+組間波動
第七十七、六集 F假設檢驗
F統計量是組間平方和除以其自由度比上組內平方和除以其自由度。F值主要描述:組間的差異大,還是組內的差異大?如果是組間的差異大,那么這兩組數據本身不一致的概率就大,對應F值比較大。F檢驗又稱為方差其次性檢驗,檢查的是方差的差異性。需注意:F檢驗的前提是F分布,而F分布的前提是正態分布。F檢驗通常作為T檢驗的一步。
各個分布的應用如下:
方差已知情況下求均值是Z檢驗。
方差未知求均值是t檢驗(樣本標准差s代替總體標准差R,由樣本平均數推斷總體平均數)
均值方差都未知求方差是X^2檢驗
兩個正態分布樣本的均值方差都未知情況下求兩個總體的方差比值是F檢驗。
第七十八集 相關性和因果性
相關性,描述兩個隨機變量是否存在線性關系。對於高斯過程,獨立與不相關是等價的。此外,相關性和因果性是不同的,A與B相關,並不能說存在因果關系,也許是因為C與A相關,C與B相關,才導致A與B相關。
第七十九--八十五集 演繹推理與歸納推理
歸納推理是特殊到一般的過程,而演繹是一般到特殊的過程。