【機器學習】統計學與概率論知識點匯總


  1. 常見分布
  • 正態分布:
  • 標准正態分布:
  • 對數正態分布:
  • 均勻分布:
  • 指數分布:
  • 伽瑪分布:,其中
  • 分布:
  • 是來自正態總體的一個樣本,則
  • 是來自標准正態分布的一樣樣本,則其平方和服從自由度為n的分布。
  • 貝塔分布:
  • t分布:t分布是正態總體的一個樣本的樣本均值與樣本標准差的特定函數。當自由度較大(如)時,t分布可以用標准正態分布近似。
  • F分布:設隨機變量,且兩者獨立,則的密度函數為,此分布為自由度為n與m的F分布,記為為自由度為n與m的F分布p分位數,有
  1. 分布特征數
    1. 特征數定義

分布的特征數刻畫分布的位置、散布、偏度、峰度。其中偏度與峰度都是描述分布形狀的特征數,他們都是以正態分布為基准。

  • 數學期望:
  • 方差:稱為偏差,則偏差平方的數學期望為隨機變量X(或相應分布)的方差,記為
  • 標准差:方差的平方根稱為隨機變量X(或相應分布)的標准差,記為
  • 變異系數:標准差與數學期望的比值,即,變異系數是無單位的量。
  • 偏度系數:,偏度系數是描述分布偏離對稱性程度的一個特征數。稱分布為正偏或右偏,稱分布為負偏或左偏,分布關於是對稱的。
  • 峰度系數:,峰度是描述分布尖峭程度和尾部粗細的一個特征數,是相對與正態分布而言的超出量。
  1. 常見分布的特征數

分布

均值

方差

偏度

峰度

均勻分布

0 

-1.2 

正態分布

0 

0 

指數分布

2 

6 

伽瑪分布

  1. 假設檢驗

根據所獲樣本,運用統計分析方法對總體X的某種假設做出判斷,具體包含建立假設,尋找檢驗統計量,構造拒絕域,直到最后做出判斷四個步驟。

  1. 建立假設

一般假設檢驗問題需要建設兩個假設:原假設與備擇假設。假設全網客戶Arpu服從正態分布,需要檢測全網客戶平均Arpu是否為40,則可建立以下兩個假設:

原假設                        

備擇假設                    (雙側檢驗問題)

某些情況下,Arpu允許過高不得過低或允許過低不得過高,則可建立以下兩對假設:

原假設                        

備擇假設                    (單側檢驗問題)

原假設                        

備擇假設                    (單側檢驗問題)

  1. 選擇檢驗統計量

為樣本的Arpu均值,那么在原假設為真的情況下,經標准化變化可得

這里的u就是檢驗統計量,分子的絕對值是樣本均值與總體均值之間的距離,其大小表征系統誤差大小,分母是隨機誤差大小,兩者比值表征系統誤差是隨機誤差的倍數。可見若u的絕對值越大,系統誤差越大,這是應傾向於拒絕;相反則傾向於不拒絕。即是尋找臨界值c,使得:

,拒絕

,不拒絕

則稱為該雙側檢驗問題的拒絕域,記為W。臨界值c的確定將用控制犯錯誤概率確定。

  1. 根據顯著性水平,確定臨界值

在假設檢驗中可能犯的錯誤有如下兩類:

第I類錯誤(拒真):原假設為真,由於抽樣隨機性,樣本落在拒絕域,從而導致拒絕原假設,其發生概率記為又稱為顯著性水平。

第Ⅱ類錯誤(取偽):原假設不真,單由於抽樣隨機性,樣本未落在拒絕域,從而導致接受原假設,其發生概率為

由此可見,=P(犯第I類錯誤)=P(為真時拒絕)。

這個概率是成立下,計算拒絕域的概率,此時,則:

其中為標准正態分布函數,由上式知,是c的嚴減函數,即越小,拒絕域越小。

一般理論研究表明:隨着的減小,在增加;隨着樣本量的增加,在減小。

  1. P值判斷

一個假設檢驗問題中不同的顯著性水平會導致不同的結論,而顯著性水平的選擇又帶有人為因素,因此提出"p值"的概念,即:在一個假設檢驗問題中,拒絕原假設的最小顯著性水平稱為p值。

值,則拒絕原假設;若值,則接受原假設。

  1. 卡方擬合優度檢驗(檢驗)
    1. 定義

檢驗需要將總體分類為有限類,檢驗結論依賴於分組,不同分組有可能得出不同的結論,故在檢驗在連續分布場合有一定的不足之處。

將總體分為有限類(分組經驗公式,n為樣本量),每類中的觀察頻數為,根據原假設每類中的期望頻數為,則檢驗的檢驗統計量。當n充分大時,近似服從自由度為分布,其中為分類組數,為假設分布的未知參數個數。對於顯著性水平拒絕域為

每類中的期望頻數不應過小,建議取

  1. 列聯表的獨立性檢驗

檢驗可應用於檢驗兩個分類隨機變量之間的獨立性。

 

X 

行和

Y 

 

列和

n 

X與Y獨立時,對一切的i和j有,因此假設檢驗為:

原假設                    

備擇假設        至少有一對i,j,使得

其拒絕域為,其中,這里仍然要求


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM