LDA模型的研究及其在推荐系统中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liouyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是用来发现文章中隐藏的主题的一种统计方法,这是一种应用范围十分广的生成模型。该模型假设每个文档里存在很多个隐藏的主题,而由于文档的性质和类别不同,使得每篇文章的主题分布情况是不同的。主题模型就是利用文章的这个特点,根据每篇文章的主题分布建立模型。主题模型的应用范围十分的广泛,而且在许多领域的应用效果也十分的显著。本文就是以LDA(Latent Dirichlet Analysis)主题模型为研究对象,针对模型的改进和模型参数的估计进行了进一步研究。首先,考虑到在电子商务中在购买商品之后还可以对所购买的商品进行评分。所以,我们对LDA模型进行了改进,加入了对商品的评分。并且,针对离散型评分和连续型评分我们分别对LDA模型进行了改进,然后用变分EM算法进行了参数估计。其次,由于在对改进后的LDA模型用变分EM算法进行参数估计的过程中,我们发现目标函数的下界是我们假设的变分分布的熵。而熵表示的是随机变量的不确定性,即我们假设的变分分布的不确定性。由此,我们提出用TEM(Tempered Expectation Maximization)算法对模型进行参数估计。该算法通过对目标函数的中的熵除以一个参数τ,从而降低由于假设的变分分布的不确定性而对模型造成的影响。最后,我们将改进后的LDA模型应用到MovieLens数据集上进行验证,并通过交叉验证的方法与基于用户的协同过滤以及PLSA模型进行对比。得到改进后的模型效果优于其他模型,而这两种模型中,连续型数据的模型效果优于离散型的模型。
其他文献
本文我们首先通过考虑欧氏空间中子流形中的Bochner型公式,分别得到了具有常平均曲率超曲面的Bochner不等式(公式略)(1)和欧氏空间中高余维极小子流形的Bochner不等式(公式略)(2)我们
现实世界中,存在大量的复杂系统,这些系统都可以用复杂网络来表示,例如,Internet网络,演员合作网、新陈代谢网、航空网等。这些不同类型系统的拓扑结构有着纷繁复杂的表现,但普通网
本文运用上下解的单调迭代方法,全连续算子的Leray-Schauder不动点定理和锥映射的不动点指数理论讨论三阶非线性微分方程  此处公式省略  2π周期解的存在性与唯一性及正2