原文:打分排序系统漫谈3 - 贝叶斯更新/平均

上一节我们聊了聊用Wilson区间估计来处理小样本估计,但从原理上来说这种方法更像是一种Trick,它没有从本质上解决样本量小的时候估计不置信的问题,而是给估计加上一个和样本量相关的置信下界,然后用这个下界替代估计进行打分。 想要从本质上解决小样本估计不置信的问题,一个更符合思维逻辑的方法是我们先基于经验给出一个预期估计,然后不断用收集到的样本来对我们的预期进行更新,这样在样本量小的时候,样本不会 ...

2019-06-16 13:08 4 792 推荐指数:

查看详情

打分排序系统漫谈1 - 时间衰减

打分排序系统的应用非常普遍,比如电影的评分,知乎帖子的热度,和新闻文章的排序。让我们从最简单直观的平均打分开始, 聊聊各种打分方法的利弊和使用场景。 最简单的打分方法当然是一段时间的点赞量综述。显而易见的缺点就是越老的帖子容易拿到更多的赞而长期霸榜,HN用了一种简单的时间方法来考虑时间衰减 ...

Thu Feb 07 19:37:00 CST 2019 0 1963
打分排序系统漫谈2 - 点赞量?点赞率?! 置信区间!

在第一篇打分系统漫谈1 - 时间衰减我们聊了两种相对简单的打分算法Hacker News和Reddit Hot Formula,也提出了几个这两种算法可能存在的问题,这一篇我们就其中的两一个问题进一步讨论: 如何综合浏览量和点赞量对文章进行打分[期望效用函数->点赞率] 如何解 ...

Sun Feb 10 19:37:00 CST 2019 2 1039
模型平均

(学习这部分内容大约需要1.1小时) 摘要 在模型选择中, 我们通常从一组候选模型中选择一个"最优"的模型(基于某种模型评价准则, 比如AIC分数). 然后, 使用这个选定的"最优"模型进行预测. 与这种选择单一最优模型不同的是, 模型平均给每个模型赋予权重, 并进行加权平均确定最终 ...

Sun Feb 12 19:41:00 CST 2017 0 1296
基于估计的星级得分排

问题阐述 互联网早已成为人们生活的一部分,没事在网上看看电影、逛逛淘宝、定定外卖(有时间还是要多出去走走)。互联网的确为我们提供了非常多的便利,但它毕竟是一个虚拟的环境,具有更多的不确定性,大多数情况下我们只能通过别人的评论及打分来判别某个商品的好坏。五星打分是许多网站采用的商品排名方法,它也 ...

Thu Jul 07 19:41:00 CST 2016 2 3141
和朴素是啥

目录 一、 什么是先验概率、似然概率、后验概率 公式推导 二、为什么需要朴素 三、朴素是什么 条件独立 举例:长肌肉 拉普拉平滑 半朴素 一、 ...

Mon Mar 30 23:21:00 CST 2020 2 2567
算法

一、简介 用于描述两个条件概率之间的关系,一般,P(A|B)与P(B|A)的结果是不一样的,则是描述P(A|B)和P(B|A)之间的特定的关系。 公式:\[P({A_{\rm{i}}}|B) = \frac{{P(B|{A_{\rm{i}}})P({A_i})}}{{\sum ...

Thu Nov 29 05:47:00 CST 2018 0 2000
算法——

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B ...

Tue Dec 11 19:44:00 CST 2018 0 2248
高斯

高斯用来处理连续数据,假设数据里每个特征项相关联的数据是连续值并且服从高斯分布,参考这里。 概率公式:在《白话大数据与机器学习》里使用了sklearn里的GaussionNB来处理连续数据:训练模型 clf = GaussianNB().fit(x, y)预测数据 ...

Tue Aug 16 18:32:00 CST 2016 0 1606
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM