【概率論與數理統計】小結1 - 概率論中的基本概念


:其實從中學就開始學習統計學了,最早的寫"正"字唱票(相當於尋找眾數),就是一種統計分析的過程。還有畫直方圖,求平均值,找中位數等。自己在學校里並沒有完整系統的學習過概率論和數理統計,直到在工作中用到,才從最初的印象中,逐漸把這門學科與整個數學區分開來。自從認識到這門學科在自己從事的工作(數據分析)中所處的重要地位,真沒少花時間在這方面的學習上。從最初的p值的含義,到各種分布,假設檢驗,方差分析。。。有的概念看過很多遍,但還是沒有理解透徹;有的看過,長時間不用,又忘記了。總之,這一路走來,實在是崎嶇坎坷。因此,打算在最近專門抽出一段時間對自己學習過的《概率論與數理統計》做一個小結,也算是對自己的一個交代。主要包括以下幾個方面:

  • 基本概念;
  • Python的實現;
  • 一些比較經典的例子。

以下主要根據浙江大學在中國大學MOOC上的公開課筆記,整理而來:

 

基礎中的基礎


 統計規律性:

    在所有可觀察的現象中,可以從大的方面分為兩類——必然現象隨機現象

    物理學中各種定律描述的基本上都是必然現象,比如物體會因為重力而從高處下落,某一時刻地球位於太陽系中的位置。這些現象的發生都是確定無疑的,如果我們完全認識了它們的內在規律,那么在發生之前就是可以完全准確的預測出結果。但是還有一類現象是不確定的。它的不確定性表現在,事先無法准確的預測其結果。唯一可以獲得這類現象的結果的辦法是等到它們發生之后。最典型的例子就是拋硬幣。拋一枚均勻的硬幣之前,已知結果只有正面和反面兩種,但是無法知道到底會是哪一面。生活中還有很多這樣的事情,比如說,跟喜歡的人表白;明天是否會下雨等。可以看到,這些現象單次發生的時候,是毫無規律可循的。也正是有了這兩種現象,才讓這個世界既可以被認識,又不至於完全可以被預測(那不知道會多無聊)。

    但當我們在相同的條件下,大量重復(如果可以的話)做某件不確定的事,然后統計實驗結果,就有可能發現某種規律。還是拿拋硬幣來舉例,每次拋硬幣都不知道會得到正面還是反面,但如果有耐心將一枚均勻的硬幣拋20,000次(已經有多位著名的統計學家這么做過了),然后統計一下正反面分別出現了多少次,就可以發現它們差不多都是10,000次,也就是差不多各占50%。上面的拋硬幣的例子中,隨機現象(拋硬幣)在相同的條件下,大量重復試驗中呈現的規律性就叫做統計規律性。《概率論與數量統計》就是研究隨機現象的統計規律的一門學科。從這里也可以看到樣本量的多少對研究隨機變量的規律的影響是巨大的。

 

概率論與數理統計:

    實際上,一般概率論與數理統計被認為是兩個學科。

    概率論是數學的一個分支,研究如何定量描述隨機變量及其規律;

    數理統計則是以數據為唯一研究對象,包括數據的收集、整理、分析和建模,從而對隨機現象的某些規律進行預測或決策。

 

怎么學習概率論與數量統計:

  1. 學思想:如何看待和處理隨機規律性;
  2. 學方法:建立統計模型;
  3. 學應用:模型的實際應用,也可以自己收集、尋找各種實例;
  4. 學軟件:掌握統計軟件的使用和結果分析。

    檢驗標准:對"隨機"有足夠的認識;對"數據"有興趣、有感覺。

 

隨機試驗與樣本空間


 隨機試驗:

    對隨機現象的觀察、記錄、實驗統稱為隨機試驗。它具有以下特性:

  • 可以在相同條件下重復進行;
  • 事先知道所有可能出現的結果;
  • 進行試驗前不知道哪個試驗結果會發生。

    隨機試驗有很多種,例如常出現的擲骰子,摸球,射擊,拋硬幣等。所有的隨機試驗的結果可以分為兩類來表示:

  • 數量化表示:射擊命中的次數,商場每個小時的客流量,每天經過某個收費站的車輛等,這些結果本身就是數字;
  • 非數量化表示:拋硬幣的結果(正面/反面),化驗的結果(陽性/陰性)等,這些結果是定性的,非數量化的。但是可以用示性函數來表示,例如可以規定正面(陽性)為1,反面(陰性)為0,這樣就實現了非數量化結果的數量化表示。

 

樣本空間:

    隨機試驗的所有可能結果構成的集合。一般即為S(大寫的S)

    S中的元素e稱為樣本點(也可以叫做基本事件);

    事件是樣本空間的子集,同樣是一個集合;

 

事件的相互關系:

  • 事件的包含:A⊆B
  • 事件的相等:A=B
  • 事件的積(交):A∩B,AB
  • 互斥事件(互不相容事件):不能同時出現
  • 事件的和(並):A∪B
  • 事件的差:A-B,A發生,B不發生
  • 對立事件(逆事件):互斥,必需出現其中一個
    事件的運算性質就是集合的性質

 

頻率與概率


 頻率:

    頻率是0~1之間的一個實數,在大量重復試驗的基礎上給出了隨機事件發生可能性的估計。

    頻率的穩定性:在充分多次試驗中,事件的頻率總在一個定值附近擺動,而且,試驗次數越多擺動越小。這個性質叫做頻率的穩定性。

 

概率:

    概率的統計性定義:當試驗次數增加時,隨機事件A發生的頻率的穩定值p就稱為概率。記為P(A)=p

    概率的公理化定義:設隨機試驗對於的樣本空間為S。對每一個事件A,定義P(A),滿足:

  1. 非負性:P(A) ≥ 0
  2. 規范性:P(S) = 1
  3. 可列可加性:A1, A2, ...兩兩互斥,及AiAj = ∅, i≠j,P(∪Ai) = ∑P(Ai)
    概率是隨機事件的函數,對於不同的事件,取不同的值

 

條件概率:

    P(A|B)表示在事件B發生的條件下,事件A發生的概率,相當於AB中所占的比例。此時,樣本空間從原來的完整樣本空間S縮小到了B

    由於有了條件的約束(事件 B),使得原來的樣本空間減小了。

                   

圖1:a.條件概率的樣本空間;b.條件概率的計算公式

 

例:一個家庭中有兩個小孩,已知至少一個是女孩,問兩個都是女孩的概率是多少?

(假定生男生女是等可能的)

解:由題意,樣本空間為

S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}

B = {(兄, 妹), (姐, 弟), (姐, 妹)}

A = {(姐, 妹)}

由於事件B已經發生,所以這時試驗的所有可能只有三種,而事件A包含的基本事件只占其中的一種,所以有:

P(A|B) = 1/3,

即在已知至少一個是女孩的情況下,兩個都是女孩的概率為1/3

在這個例子中,如果不知道事件B發生,則事件A發生的概率為P(A) = 1/4

這里P(A) ≠ P(A|B),其原因在於事件B的發生改變了樣本空間,使它由原來的S縮減為新的樣本空間SB = B

 

隨機變量


 在幾乎所有的教材中,介紹概率論時都是從事件和樣本空間說起的,但是后面的概率論都是圍繞着隨機變量展開的。可以說前面的事件和樣本空間都是引子,引出了隨機變量這個概率論中的核心概念。后面的統計學是建立在概率論的理論基礎之上的,因此可以說理解隨機變量這個概念是學習和運用概率論與數理統計的關鍵。

 

名詞解釋:

  • 首先這是一個變量,變量與常數相對,也就是說其取值是不明確的,其實隨機變量的整個取值范圍就是前面說的樣本空間;
  • 其次這個量是隨機的,也就是說它的取值帶有不確定性,當然是在樣本空間這個范圍內。

 

定義:

設隨機試驗的樣本空間是S。若對S中的每個樣本點e,都有唯一的實數值X(e)與之對應,則稱X(e)為隨機變量,簡記為X。

     

 

圖2:a.隨機變量與事件的關系;b.隨機變量的本質是函數(一種映射關系)

隨機變量的定義並不復雜,但是理解起來卻並不是那么直觀。參考圖2的兩個示意圖,可以幫助理解。

  • 首先,隨機變量與之前定義的事件是有關系的,因為每個樣本點本身就是一個基本事件;
  • 在前面隨機試驗結果的表示中提到,無論是數量化的結果還是非數量化的結果,即不管試驗結果是否與數值有關, 都可以引入變量, 使試驗結果與數建立對應關系;
  • 隨機變量本質上是一種函數,其目的就是建立試驗結果(樣本空間中的點,同基本事件e)與實數之間的對應關系(例如將"正面"映射為1,"反面"映射為0);
  • 自變量為基本事件e,定義域為樣本空間S,值域為某個實數集合,多個自變量可以對應同一個函數值,但不允許一個自變量對應多個函數值;
  • 隨機變量X取某個值或某些值就表示某種事件,且具有一定的概率;
  • 隨機變量中的隨機來源於隨機試驗結果的不確定性;

 

隨機變量的表示:

  • 隨機變量通常用大寫字母X, Y, Z或希臘字母ξ, η等表示;
  • 隨機變量的取值一般用小寫字母x, y, z等表示。

通過引入隨機變量,我們簡化了隨機試驗結果(事件)的表示,從而可以更加方便的對隨機試驗進行研究。

圖3:從事件到隨機變量

 
例:用X表示單位時間內某電話交換台收到的呼叫次數,它是一個隨機變量。
  • 事件A=“收到不少於1次呼叫” <=> ( X >= 1 );
  • 事件B=“沒有收到呼叫” <=> ( X = 0 ) ;
  • 而P(A) = P(X >= 1), P(B) = P(X = 0)。

 

隨機變量的分類:

  • 離散型隨機變量;
  • 連續型隨機變量;
  • 每類隨機變量都有其獨特的概率密度函數和概率分布函數。

 

 隨機變量的數字特征:

  • 期望(均值),眾數,分位數,中位數;
  • 方差;
  • 協方差;
  • 相關系數。

 

歡迎閱讀“概率論與數理統計及Python實現”系列文章

 

Reference


中國大學MOOC:浙江大學,概率論與數理統計

中國大學MOOC:哈爾濱工業大學,概率論與數理統計

https://www.mathsisfun.com/data/random-variables.html

 

 

重大修訂版:

 2017-7-23,添加隨機變量相關內容;

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM