论文部分内容阅读
在信息化社会的时代,现代人对信息获取的要求越来越高,人们迫切需要从海量数据中提取出高层信息。而主题是一种非常重要的高层信息,概率主题模型的提出,可以帮助我们有效的提取出数据中的主题信息和语义信息,具有很高的研究价值。
本文重点分析比较了包括概率潜语义分析和潜狄利克雷分析在内的几个主要的概率主题模型,并在其基础上提出了一种基于狄利克雷树和分裂合并算法的非参数化贝叶斯主题模型,同时推导了该模型的统计推断和参数估计算法。该模型做为潜狄利克雷分布模型的一种层次化扩展,能够成功的提取出主题的内部关联和层次关系,并能够做到自动确定主题数。
提出并实现了融合上下文信息的二元概率潜语义分析模型,尝试在主题模型中引入局部序列信息。为了验证二元概率潜语义模型相比于原始概率潜语义分析模型的优越性,我们在语言模型自适应方面进行了实验,达到了较好的性能。
综上所述,本文对概率主题模型进行了全面细致的考察,并提出了一系列的改进方案,使得我们的模型最终能够发掘出更多更准确的主题信息。