原文:https://www.zybuluo.com/frank-shaw/note/108124 信息熵 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息 ...
最大熵模型 作者:樱花猪 摘要: 本文为七月算法 julyedu.com 月机器学习第七次课在线笔记。熵,这个概念对于我们来说既熟悉又陌生,熟悉的是我们在许多领域都会碰到熵这个概念,陌生的是如果真的让你解释它又说不清道不明。本次课程讨论了熵的概念并详细解释了最大熵模型。这次课承上启下,将前几次课程所埋的坑一一填起,又为接下来更加深入的机器学习做了铺垫。 引言: 熵的概念对我来说既陌生又熟悉,在看论 ...
2016-04-08 17:06 0 2206 推荐指数:
原文:https://www.zybuluo.com/frank-shaw/note/108124 信息熵 信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息 ...
一.最大熵原理 最大熵的思想很朴素,即将已知事实以外的未知部分看做“等可能”的,而熵是描述“等可能”大小很合适的量化指标,熵的公式如下: \[H(p)=-\sum_{i}p_i log p_i \] 这里分布\(p\)的取值有\(i\)种情况,每种情况的概率为\(p_i\),下图 ...
最大熵模型是指在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。 最大熵原理 最大熵思想:当你要猜一个概率分布时,如果你对这个分布一无所知,那就猜熵最大的均匀分布,如果你对这个分布知道一些情况,那么,就猜满足这些情况的熵最大的分布。 算法推导 按照最大熵原理,我们应该 ...
最大熵模型预备知识 信息量:一个事件发生的概率越小,信息量越大,所以信息量应该为概率的减函数,对于相互独立的两个事有p(xy)=p(x)p(y),对于这两个事件信息量应满足h(xy)=h(x)+h(y),那么信息量应为对数函数: 对于一个随机变量可以以不同的概率发生 ...
主题模型 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十五次课在线笔记。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本 ...
1、似然函数 概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。 那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样 ...
Overview 统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个随机过程的状态。建模的目的,就是将这些不完整的知识转化成简洁但准确的模型。我们可以用这个模型去预测 ...
逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵模型是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。 逻辑斯谛回归 逻辑斯谛分布 :设\(X ...