【機器學習】統計學與概率論知識點匯總

本文轉載自查看原文 2016-03-25 20:53 4282 數據挖掘/機器學習

常見分布

正態分布：
標准正態分布：
對數正態分布：
均勻分布：
指數分布：
伽瑪分布：，其中
分布：
設是來自正態總體的一個樣本，則
若是來自標准正態分布的一樣樣本，則其平方和服從自由度為n的分布。
貝塔分布：
t分布：，t分布是正態總體的一個樣本的樣本均值與樣本標准差的特定函數。當自由度較大（如）時，t分布可以用標准正態分布近似。
F分布：設隨機變量，且兩者獨立，則的密度函數為，此分布為自由度為n與m的F分布，記為。為自由度為n與m的F分布p分位數，有

分布特征數
1. 特征數定義

分布的特征數刻畫分布的位置、散布、偏度、峰度。其中偏度與峰度都是描述分布形狀的特征數，他們都是以正態分布為基准。

數學期望：。
方差：稱為偏差，則偏差平方的數學期望為隨機變量X（或相應分布）的方差，記為。
標准差：方差的平方根稱為隨機變量X（或相應分布）的標准差，記為或。
變異系數：標准差與數學期望的比值，即，變異系數是無單位的量。
偏度系數：，偏度系數是描述分布偏離對稱性程度的一個特征數。稱分布為正偏或右偏，稱分布為負偏或左偏，分布關於是對稱的。
峰度系數：，峰度是描述分布尖峭程度和尾部粗細的一個特征數，是相對與正態分布而言的超出量。

常見分布的特征數

分布	均值	方差	偏度	峰度
均勻分布			0	-1.2
正態分布			0	0
指數分布			2	6
伽瑪分布

假設檢驗

根據所獲樣本，運用統計分析方法對總體X的某種假設做出判斷，具體包含建立假設，尋找檢驗統計量，構造拒絕域，直到最后做出判斷四個步驟。

建立假設

一般假設檢驗問題需要建設兩個假設：原假設與備擇假設。假設全網客戶Arpu服從正態分布，需要檢測全網客戶平均Arpu是否為40，則可建立以下兩個假設：

原假設

備擇假設（雙側檢驗問題）

某些情況下，Arpu允許過高不得過低或允許過低不得過高，則可建立以下兩對假設：

原假設

備擇假設（單側檢驗問題）

原假設

備擇假設（單側檢驗問題）

選擇檢驗統計量

為樣本的Arpu均值，那么在原假設為真的情況下，經標准化變化可得

這里的u就是檢驗統計量，分子的絕對值是樣本均值與總體均值之間的距離，其大小表征系統誤差大小，分母是隨機誤差大小，兩者比值表征系統誤差是隨機誤差的倍數。可見若u的絕對值越大，系統誤差越大，這是應傾向於拒絕；相反則傾向於不拒絕。即是尋找臨界值c，使得：

當，拒絕；

當，不拒絕。

則稱為該雙側檢驗問題的拒絕域，記為W。臨界值c的確定將用控制犯錯誤概率確定。

根據顯著性水平，確定臨界值

在假設檢驗中可能犯的錯誤有如下兩類：

第I類錯誤（拒真）：原假設為真，由於抽樣隨機性，樣本落在拒絕域，從而導致拒絕原假設，其發生概率記為，又稱為顯著性水平。

第Ⅱ類錯誤（取偽）：原假設不真，單由於抽樣隨機性，樣本未落在拒絕域，從而導致接受原假設，其發生概率為。

由此可見，=P（犯第I類錯誤）=P（為真時拒絕）。

這個概率是成立下，計算拒絕域的概率，此時，則：

，其中為標准正態分布函數，由上式知，是c的嚴減函數，即越小，拒絕域越小。

一般理論研究表明：隨着的減小，在增加；隨着樣本量的增加，與在減小。

P值判斷

一個假設檢驗問題中不同的顯著性水平會導致不同的結論，而顯著性水平的選擇又帶有人為因素，因此提出"p值"的概念，即：在一個假設檢驗問題中，拒絕原假設的最小顯著性水平稱為p值。

若值，則拒絕原假設；若值，則接受原假設。

卡方擬合優度檢驗（檢驗）
1. 定義

檢驗需要將總體分類為有限類，檢驗結論依賴於分組，不同分組有可能得出不同的結論，故在檢驗在連續分布場合有一定的不足之處。

將總體分為有限類（分組經驗公式，n為樣本量)，每類中的觀察頻數為，根據原假設每類中的期望頻數為，則為檢驗的檢驗統計量。當n充分大時，近似服從自由度為的分布，其中為分類組數，為假設分布的未知參數個數。對於顯著性水平，拒絕域為。

每類中的期望頻數不應過小，建議取。

列聯表的獨立性檢驗

檢驗可應用於檢驗兩個分類隨機變量之間的獨立性。

		X				行和
				…		行和
Y				…
				…
	…	…	…		…	…
				…
列和				…		n

X與Y獨立時，對一切的i和j有，因此假設檢驗為：

原假設

備擇假設至少有一對i，j，使得

，其拒絕域為，其中，這里仍然要求。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 概率論與統計推斷（機器學習）概率論機器學習的先驗知識(上) 統計學與概率論的區別機器學習-Pandas 知識點匯總(吐血整理) MLAPP——概率機器學習知識匯總機器學習概率論的一些基礎知識機器學習中有關概率論知識的小結機器學習筆試知識點機器學習知識點總結（1）統計學習方法筆記——一、統計學習（機器學習）基礎知識（上）