龙空技术网

机器学习:概率潜在语义分析(PLSA)算法介绍

小齐在武汉 34

前言:

目前大家对“em算法推导出plsa的求解方案”可能比较讲究,你们都想要剖析一些“em算法推导出plsa的求解方案”的相关文章。那么小编同时在网上收集了一些关于“em算法推导出plsa的求解方案””的相关文章,希望小伙伴们能喜欢,你们快快来了解一下吧!

概率潜在语义分析算法简介

概率潜在语义分析(PLSA),也称概率潜在语义索引,是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。其最大特点是用隐变量表示话题;整个文章表示文本生成话题,话题生成单词,从而得到到单词-文本共线的数据过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。

概率潜在语义分析算法原理

以单词和文档的共现(w,d)形式进行的观察,PLSA将每次共现的概率建模为条件独立的多项分布的混合:

'c'是单词w的'主题'。请注意,主题数是一个超参数,必须事先选择,而不是从数据中估算。第一个公式是对称公式,其中w和d都是以类似方式从潜类c生成的(使用条件概率P(d|c)和P(w|c),而第二个公式是不对称公式,其中,对于每个文件d,a根据P(w|c)对文档有条件地选择潜在类,然后根据P(w|c)从该类生成一个单词。虽然我们在这个例子中使用了单词和文档,但是任何一些离散变量的共现可以以完全相同的方式建模。

因此,参数的数量等于cd + wc。参数数量随文档数量呈线性增长。此外,虽然PLSA是该集合中文档的生成模型,但估计它不是新文档的生成模型。

使用EM算法学习它们的参数。

概率潜在语义分析算法应用

PLSA在信息检索和过滤,自然语言处理,文本机器学习以及相关领域都有应用。

据报道,概率潜在语义分析中使用的方面模型存在严重的过度拟合问题。

参考资料:

李航 《统计机器学习》

标签: #em算法推导出plsa的求解方案