论文部分内容阅读
随着信息技术的发展和数据量的快速增加,旨在从海量的数据中发现有价值的模式和知识的数据挖掘技术应运而生。在数据挖掘中,往往需要通过一些模型将数据的表观特征转化为更符合实际应用需求的隐藏特征,在这方面,概率主题模型是近年来被广泛研究的一种方法,它利用文档→主题→特征的三层产生式过程学习数据中隐藏的主题特征,这种假设比较符合文本、图像、用户偏好等数据的特点,同时还具有容易结合先验知识进行扩展的特点,因此被广泛应用于文本挖掘和协同过滤等领域。 然而,要在具体的应用中使用概率主题模型,往往需要针对应用的特点来构建模型,通过在模型中添加一些约束,或者融入更多的先验知识,以提高算法的性能。本文针对文本挖掘中的跨领域文本分类、突发话题检测和推荐系统中的协同过滤等应用,分析当前基于概率主题模型方法存在的问题,提出改进的方法。本文的主要创新点包括: 1.针对SLDA仅依靠源域文档学习主题,在跨领域文本分类中性能较弱的问题,提出了TSLDA(Topic-bridged Supervised Latent Dirichlet Allocation)模型。该模型将SLDA扩展成为半监督学习方法,通过在模型内部添加一个LDA部分来建模目标域的未标注文档,另外设置一组领域间共享的主题词项分布,令模型的SLDA部分利用该共享主题产生源域的文档,而LDA部分则利用该共享主题产生目标域的文档,以使该参数在求解过程中受到两部分文档的共同约束。实验结果表明,建模了目标域文档约束的TSLDA可以显著提高跨领域文本分类的准确率。 2.针对LDA仅依靠词的共现性提取的主题高频词难以表示突发事件的问题,提出了Burst-LDA模型。该模型将Kleinberg突发特征模型中的一阶马尔科夫状态序列作为LDA中文档主题分布的先验加入到模型中,并令其以逻辑正态(Logsitic Normal)分布来产生文档的主题分布,然后通过设置该马尔科夫链的状态转移矩阵,促使在同一个时间段内发生频率显著上升的词汇被汇聚到同一个主题中,弥补了LDA仅仅依靠词的共现性约束来学习主题的不足。另外,为了实现高效的模型求解,提出了基于数据增广(Data Argumentation)和近似采样的Gibbs采样算法,大大提高了计算的速度。实验结果表明,建模了词的突发模式相似性约束的Burst-LDA学习到的主题可以更好地表示一些突发性事件,取得更高的突发话题检测准确率和召回率。 3.针对URP模型不能建模主题间相关性先验,在主题数目较大或者已有评分较少时推荐精度显著下降的问题,本文提出了rCTM(rating CorrelatedTopic Model)模型。该模型首先引入了CTM(Correlated Topic Model)模型中的逻辑正态分布以建模用户主题分布参数中各维度的的相关系数矩阵;然后,针对原始的CTM模型只能建模隐式评分数据的问题,对评分值的产生式过程进行了修改以建模显式评分数据;最后,针对基于变分EM算法的模型求解算法容易受初始值影响,结果不够准确的问题,提出了基于Gibbs采样的模型求解算法,通过为模型中的参数添加超参数先验,提高了求解的准确性和鲁棒性。实验结果表明,建模了主题间相关性先验的rCTM能够提高评分预测的准确性和鲁棒性。