论文部分内容阅读
主题模型是用来发现文章中隐藏的主题的一种统计方法,这是一种应用范围十分广的生成模型。该模型假设每个文档里存在很多个隐藏的主题,而由于文档的性质和类别不同,使得每篇文章的主题分布情况是不同的。主题模型就是利用文章的这个特点,根据每篇文章的主题分布建立模型。主题模型的应用范围十分的广泛,而且在许多领域的应用效果也十分的显著。本文就是以LDA(Latent Dirichlet Analysis)主题模型为研究对象,针对模型的改进和模型参数的估计进行了进一步研究。首先,考虑到在电子商务中在购买商品之后还可以对所购买的商品进行评分。所以,我们对LDA模型进行了改进,加入了对商品的评分。并且,针对离散型评分和连续型评分我们分别对LDA模型进行了改进,然后用变分EM算法进行了参数估计。其次,由于在对改进后的LDA模型用变分EM算法进行参数估计的过程中,我们发现目标函数的下界是我们假设的变分分布的熵。而熵表示的是随机变量的不确定性,即我们假设的变分分布的不确定性。由此,我们提出用TEM(Tempered Expectation Maximization)算法对模型进行参数估计。该算法通过对目标函数的中的熵除以一个参数τ,从而降低由于假设的变分分布的不确定性而对模型造成的影响。最后,我们将改进后的LDA模型应用到MovieLens数据集上进行验证,并通过交叉验证的方法与基于用户的协同过滤以及PLSA模型进行对比。得到改进后的模型效果优于其他模型,而这两种模型中,连续型数据的模型效果优于离散型的模型。