原文:打分排序系統漫談3 - 貝葉斯更新/平均

上一節我們聊了聊用Wilson區間估計來處理小樣本估計,但從原理上來說這種方法更像是一種Trick,它沒有從本質上解決樣本量小的時候估計不置信的問題,而是給估計加上一個和樣本量相關的置信下界,然后用這個下界替代估計進行打分。 想要從本質上解決小樣本估計不置信的問題,一個更符合思維邏輯的方法是我們先基於經驗給出一個預期估計,然后不斷用收集到的樣本來對我們的預期進行更新,這樣在樣本量小的時候,樣本不會 ...

2019-06-16 13:08 4 792 推薦指數:

查看詳情

打分排序系統漫談1 - 時間衰減

打分排序系統的應用非常普遍,比如電影的評分,知乎帖子的熱度,和新聞文章的排序。讓我們從最簡單直觀的平均打分開始, 聊聊各種打分方法的利弊和使用場景。 最簡單的打分方法當然是一段時間的點贊量綜述。顯而易見的缺點就是越老的帖子容易拿到更多的贊而長期霸榜,HN用了一種簡單的時間方法來考慮時間衰減 ...

Thu Feb 07 19:37:00 CST 2019 0 1963
打分排序系統漫談2 - 點贊量?點贊率?! 置信區間!

在第一篇打分系統漫談1 - 時間衰減我們聊了兩種相對簡單的打分算法Hacker News和Reddit Hot Formula,也提出了幾個這兩種算法可能存在的問題,這一篇我們就其中的兩一個問題進一步討論: 如何綜合瀏覽量和點贊量對文章進行打分[期望效用函數->點贊率] 如何解 ...

Sun Feb 10 19:37:00 CST 2019 2 1039
模型平均

(學習這部分內容大約需要1.1小時) 摘要 在模型選擇中, 我們通常從一組候選模型中選擇一個"最優"的模型(基於某種模型評價准則, 比如AIC分數). 然后, 使用這個選定的"最優"模型進行預測. 與這種選擇單一最優模型不同的是, 模型平均給每個模型賦予權重, 並進行加權平均確定最終 ...

Sun Feb 12 19:41:00 CST 2017 0 1296
基於估計的星級得分排

問題闡述 互聯網早已成為人們生活的一部分,沒事在網上看看電影、逛逛淘寶、定定外賣(有時間還是要多出去走走)。互聯網的確為我們提供了非常多的便利,但它畢竟是一個虛擬的環境,具有更多的不確定性,大多數情況下我們只能通過別人的評論及打分來判別某個商品的好壞。五星打分是許多網站采用的商品排名方法,它也 ...

Thu Jul 07 19:41:00 CST 2016 2 3141
和朴素是啥

目錄 一、 什么是先驗概率、似然概率、后驗概率 公式推導 二、為什么需要朴素 三、朴素是什么 條件獨立 舉例:長肌肉 拉普拉平滑 半朴素 一、 ...

Mon Mar 30 23:21:00 CST 2020 2 2567
算法

一、簡介 用於描述兩個條件概率之間的關系,一般,P(A|B)與P(B|A)的結果是不一樣的,則是描述P(A|B)和P(B|A)之間的特定的關系。 公式:\[P({A_{\rm{i}}}|B) = \frac{{P(B|{A_{\rm{i}}})P({A_i})}}{{\sum ...

Thu Nov 29 05:47:00 CST 2018 0 2000
算法——

簡介 學過概率理論的人都知道條件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同時發生的概率等於在發生A的條件下B發生的概率乘以A的概率。由條件概率公式推導出公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B ...

Tue Dec 11 19:44:00 CST 2018 0 2248
高斯

高斯用來處理連續數據,假設數據里每個特征項相關聯的數據是連續值並且服從高斯分布,參考這里。 概率公式:在《白話大數據與機器學習》里使用了sklearn里的GaussionNB來處理連續數據:訓練模型 clf = GaussianNB().fit(x, y)預測數據 ...

Tue Aug 16 18:32:00 CST 2016 0 1606
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM