概率分布的轉換


作者:黃永剛

前段時間有幸讀到了@老師木的文章1,里面在探討一個問題,為什么在神經網絡的節點上面使用的是sigmoid函數?其中談到一個點:

當知道X的概率密度為f(x)時,什么樣的函數h能把x變換成均勻分布的信號?也可以是這樣的一道面試題:如何用C的庫函數rand()生成服從高斯分布或者β分布,or其他分布的隨機數?

上面第一個問題,是將其他分布轉換成均勻分布的問題,第二個問題剛好相反。當然有了這個抽象之后,答案很容易上網就能夠查到,具體如下[^tjjs]:

用大白話說:
變量x服從概率密度是f(x)的分布,概率分布函數是F(x)[^gainian],

這里寫圖片描述

根據上面的定理1.1-1,如果x服從任意分布,作為自己的累積分布F(x)的輸入,則變換后值的分布必將服從U(0,1)即0,1之間的均勻分布。相反如定理1.1-2,假設目標分布的密度函數f(x),求取概率分布F(x),之后求逆F(x)^-1,然后將R[R~U(0,1),即R服從0,1之間的均勻分布]作為逆函數的輸入,變換后值的累積分布將是F(x)函數。

為什么要說這枯燥的數學知識?我們都有一個共識,生活處處存在着概率分布,尤其以鍾形曲線的分布為要,其他的分布當然也很多。要想把握事物的內在規律,必須掌握事物的概率分布,之后根據需要對分布進行轉化。在老師木的探討的文章中,需要通過轉換放大非長尾數據的作用,進而盡可能使得源信息在數學模型中得到保留。

這里寫圖片描述

而且那個文章中也提到一個重要的點,信息熵在均勻分布的時候最大,就對於這種問題,我在找工作的過程中碰到多次,給幾組數讓選擇信息熵最大的那組,很容易知道,越靠近均勻分布熵的值越大。更進一步考慮,如果用熵來描述一個系統的混亂程度,那么當系統的混亂越均勻則熵值越大,類比戰國七雄時候最為混亂,畢竟各家的實力相當。在蒙古時期,只有忽必烈部落一家獨大,其他部落就是跟着大哥混的,這個時候的混亂程度就低很多,此時熵值就小。

那么這個混亂程度,用在現代生活中,如代碼混淆,信息的加密,密碼加密等,這些都是想辦法怎么來加大其中的混亂程度,進而來增加系統中的信息熵。我們從前文已經知道越靠近均勻分布熵的值越大,因此這些領域我們可以看做是一個概率分布轉換的過程。究竟如何在具體的領域中衡量一個系統信息的概率分布並如何構造轉換函數,這些領域中大量的牛人肯定能解決這個問題。

上次在知乎看到一個題目,關於密碼破譯,不知是不是歐陽大神的回答,貌似很像。提到通過截獲大量的密文,統計其中字符出現的概率分布,然后對照現實中各個字符出現的概率就能夠找到加密字符和真實字符的對應關系。這種情況就屬於信息熵較小的情況,很容易被破解,所以現在的加密很難通過統計進行解密。這個過程其實也可視作概率分布的轉化。

上面的例子大多是加大系統的熵,然而我們生活中還有很多人的工作是來減小熵,消除不確定性。現在的人工智能的東西,為什么說剛開始的時候是“人工智障”,大家經常聽人說是由於缺少數據積累,等到數據積累多了就慢慢的聰明起來了。其中的原理是,在應用剛推出的時候,每種行為策略對於智能應用來說是等可能性的,隨着數據的積累,各種策略的分布發生變化,漸漸的形成了優勢策略,所以看起來變得智能起來。人們常說推薦系統存在“冷啟動”問題,就是由於新來的用戶沒有數據積累,對於推薦系統來說,不同類別得商品都是等可能的;隨着用戶的數據積累,逐漸形成了清晰的用戶畫像,然后根據用戶畫像進行個性化的推薦,這個時候大家就會感覺到推薦還是挺靠譜得。

還記得上學的時候,大多老師檢查家庭作業喜歡每天只檢查一組學生,有的老師選擇每組按天輪流檢查,這樣沒有輪流到組的學生就不做作業;有的老師是隨機選擇抽查一組,這樣大家怕被抽到時沒有完成而受罰,大多同學就會完成作業。對於第一種老師的選擇來說,檢查作業的分布的不確定性非常的小,結果很多學生沒有做作業,所以老師的目的並沒有達到,而第二種老師的選擇不確定性就很大,所以獲得了較好的效果。這其實也是老師和學生博弈的一個過程。聰明老師的選擇,在博弈論里面被稱作“納什均衡”,不錯就是《美麗心靈》的那個Nash。大家肯定知道經濟學同學考研也是要考《概率論》地,所以我們今天所說概率分布的轉化不僅僅局限於工程領域。

當然要很好的發現和應用這些知識還需要很多知識的積累,前路漫漫……

推薦大家有空閑的時候好好看看@老師木的文章,【參考文獻1】!

願與諸君共勉!

reference:
1. 為什么我們喜歡用sigmoid這類S型非線性變換?
2. 所有的概率分布都可以轉化成正態分布嗎?
3. zhihu:在連續隨機變量中,概率密度函數(PDF)、概率分布函數、累積分布函數(CDF)之間的關系是什么?


本文原創首發於公眾號:老王和他的IT界朋友們

微信掃描關注微信號:(原創投稿有驚喜!!!)

微信掃描二維碼關注

  1. 請參閱 參考1
    [^tjjs]: 高惠璇教授《統計計算》
    [^gainian]:概念不熟悉的可以參閱 參考3


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM