概率主题模型及其主题层次化方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xionglongyan0817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化社会的时代,现代人对信息获取的要求越来越高,人们迫切需要从海量数据中提取出高层信息。而主题是一种非常重要的高层信息,概率主题模型的提出,可以帮助我们有效的提取出数据中的主题信息和语义信息,具有很高的研究价值。 本文重点分析比较了包括概率潜语义分析和潜狄利克雷分析在内的几个主要的概率主题模型,并在其基础上提出了一种基于狄利克雷树和分裂合并算法的非参数化贝叶斯主题模型,同时推导了该模型的统计推断和参数估计算法。该模型做为潜狄利克雷分布模型的一种层次化扩展,能够成功的提取出主题的内部关联和层次关系,并能够做到自动确定主题数。 提出并实现了融合上下文信息的二元概率潜语义分析模型,尝试在主题模型中引入局部序列信息。为了验证二元概率潜语义模型相比于原始概率潜语义分析模型的优越性,我们在语言模型自适应方面进行了实验,达到了较好的性能。 综上所述,本文对概率主题模型进行了全面细致的考察,并提出了一系列的改进方案,使得我们的模型最终能够发掘出更多更准确的主题信息。
其他文献
草地早熟禾(Poa pratensis L.)属冷季型草坪草,是温带地区重要的草种之一。它具有色美、抗寒、耐荫、耐修剪等优点,在我国北方地区多被用于建造草坪。但草地早熟禾也有一些缺点,如
1960年8月生于昆明市,曾就读西南大学美术学院、中央美术学院壁画系研究生课程班,曾作为访问学者在中央美术学院壁画系进行军事历史画专题创作研究。中国美术家协会会员,北京昌平美术家学会主席,现任职中国军事博物馆美术创作室副研究员。  李如作品的特点是气势恢弘、大气磅礴,在绘画构图的“势”上颇下功夫。这种“势”与韵律、节奏在李如的作品中显得更加鲜明突出。  ——著名艺术评论家 邵大箴  李如的《鲁迅先
句法分析是自然语言处理领域一项重要的基础性研究工作。它能够发现自然语言中内在的语法结构,是进行高层信息处理和自然语言理解的基石。其中,基于上下文无关文法(PCFG)的句
当今世界,军事武器装备随着信息技术的日趋成熟和信息理论的不断更新,逐步实现了由机械化向信息化转型的跨越式发展。但是,我军防空部队现有高炮射击训练器材的应用与研发相
随着通信技术的高速发展及智能终端的广泛应用,传统的蜂窝网络已远远无法满足人们对于高速率数据业务的需求。解决上述问题最有效的方式是在传统的宏基站覆盖范围内部署低功
超宽带穿墙探测雷达(UWB-TWSR:Ultra Wideband Through-Wall Surveillance Radar)是一种新型的、基于UWB技术的手持式探测雷达。UWB信号具有高带宽、低功率谱密度、抗多径能
目前海洋SAR图像的分析利用方面存在很大的发展空间,当海量的SAR图像用于舰船及其尾迹检测时,需要开展自动检测算法方面的研究,本文在前人的工作基础之上,结合“十一五”总装预研
随着人们对无线通信带宽不断增长的需求,一种将无线通信和光纤通信相结合的技术应运而生,称为射频光纤传输(RoF)技术。RoF技术结合了毫米波无线通信和光纤通信的特点,能够实现高
摘要:数学课堂效率一直是教学有效的核心问题,对于如何有效提高数学教学的有效性,本文从教学目标设计、课堂时间管理、教学环节管理、以及课堂反思环节探讨如何提高数学课堂的效率。  关键词:数学课堂;效率;管理;环节  提高数学课堂教学效率是课堂教学质量的重要的衡量标准,一堂课的效果如何,首先体现在教师能否调动全体学生的学习积极性,引导学生参与体验学习过程,促进学生对知识的主动建构。所以我们要科学、有效地
本文通过对荣华二采区10
期刊