【數據分析】貝葉斯原理以及簡單案例說明


文章來源:公眾號-智能化IT系統。

貝葉斯的原理類似於概率反轉,通過先驗概率推導出后驗概率。其公式如下:

在大數據分析中,該定理可以很好的做推導預測,很多電商以及用戶取向可以參照此方式,從已有數據推導出未知數據,以歸類做后續操作。

例如,在一個購房機構的網站,已有8個客戶,信息如下:

用戶ID 年齡 性別 收入 婚姻狀況 是否買房
1 27 15W
2 47 30W
3 32 12W
4 24 45W
5 45 30W
6 56 32W
7 31 15W
8 23 30W

 

這時來了一個新的客戶,還沒買房,其信息如下:

年齡 性別 收入 婚姻狀況
34 31W

那么怎么判斷她是否會買呢,是否需要給她做買房推薦呢?

 

我們用貝葉斯理論來計算其概率。在上述已有的8個客戶中,有四個維度,年齡,性別,收入,婚姻狀況,這四個緯度構成衡量最終是否買房的標准。我們按照最終是否買房,把記錄分為兩個表:

買了房的(圖表1):

用戶ID 年齡 性別 收入 婚姻狀況 是否買房
2 47 30W
4 24 45W
6 56 32W

沒買房的(圖表2):

用戶ID 年齡 性別 收入 婚姻狀況 是否買房
1 27 15W
3 32 12W
5 45 30W
7 31 15W
8 23 30W

 買房的概率我們用P(a1)表示,為3/8,沒買房的概率我們用P(a2)表示,為5/8。

 

我們依次從這四個緯度分析:

年齡:

這里我們按照年齡段,分為20-30,30-40,40+三個階段。這個新客戶的年齡在30-40。

P(b1|a1) --- 30-40買房的概率是1/3

P(b1|a2) --- 30-40沒買房的概率是2/5

收入:

這里我們按照薪水,分為10-20,20-40,40+三個級別。這個新客戶的收入在20-40。

P(b2|a1) --- 20-40買房的概率是2/3

P(b2|a2) --- 20-40沒買房的概率是2/5

婚姻狀況:

新客戶是未婚

P(b3|a1) --- 未婚買房的概率是1/3
P(b3|a2) --- 未婚沒買房的概率是3/5

性別:

新客戶是女

P(b4|a1) --- 女性買房的概率是1/3
P(b4|a2) --- 女性沒買房的概率是1/5

 

OK,現在開始做整合:

新用戶買房的統計概率為P(b|a1)P(a1),其中P(b|a1)為P(b1|a1)P(b2|a1)P(b3|a1)P(b4|a1),那么為0.33*0.66*0.33*0.33*3/8 = 0.0089

新用戶不會買房的統計概率為P(b|a2)P(a2),其中P(b|a2)為P(b1|a2)P(b2|a2)P(b3|a2)P(b4|a2),那么為0.4*0.4*0.6*0.2*5/8 = 0.012

 

由結果得知,該用戶不會買房的概率大,所以可以將其分類至不會買房的類別。

 


公眾號-智能化IT系統。每周都有技術文章推送,包括原創技術干貨,以及技術工作的心得分享。掃描下方關注。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM