前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点 ...
文章分类:综合技术 . 引子 Bag of Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档 document 被表示为一组单词 word term 的无序组合,而忽略了语法 或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域 Computer Vision 也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如: 稀疏性 Sparse ...
2013-07-08 10:49 0 5029 推荐指数:
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点 ...
PLSA模型 PLSA和LDA很像,都属于主题模型,即它们都认为上帝在写文章时先以一定概率选择了一个主题,然后在这主题下以一定概率选择了一个词,重复这个过程就完成了一篇文章,即$p(d_i,w_j)=p(z_k|d_i)p(w_j|z_k)$,其中$d$表示文章,$w$表示词,$z$表示主题 ...
主题模型 主题模型这样理解一篇文章的生成过程: 1、 确定文章的K个主题。 2、 重复选择K个主题之一,按主题-词语概率生成词语。 3、 ...
http://hi.baidu.com/flyer_hit/blog/item/2ec12d251dd9dd6835a80f55.htmlhttp://blog.csdn.net/feixiangcq ...
本文作为em算法在图模型中的一个应用,推导plsa的em算法。 1 em算法 em算法是解决一类带有隐变量模型的参数估计问题。 1.1 模型的定义 输入样本为,对应的隐变量为。待估计的模型参数为,目标为极大化似然函数 对于上式的优化,不能通过直接对进行求导,因为一旦求导,就有 ...
PLSA (概率潜语义分析) 是基于 双模式 和 共现 的数据分析方法延伸的经典的统计学方法。概率潜语义分析 应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。概率潜语义分析 与 标准潜语义分析 的不同是,标准潜在语义分析是以 共现表(就是共现的矩阵)的奇异值分解的形式表现 ...
一. LSA 1. LSA原理 LSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index),是 Scott ...
Topic model 在搜索和广告,用户兴趣理解,推荐系统中有着非常泛的应用。它可以成为retrieval的方法,成为点击模型的信号,也是推荐系统中基于内容推荐的重要算法。Topic model最近这些年很火的原因是其在语料准备上比supervised model更容易,不需要人工的标注 ...