基于主题模型的文本语义挖掘

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:meng20040511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络环境下,开放的数据共享和传播方式为我们积累了极其庞大的数据资源,如何从这些海量数据中获取用户所需要的数据已然成为一个紧迫又重要的问题。文本是一种最基本且广泛使用的数据类型,长期以来一直受到研究人员的关注。主题模型是一种高效的特征抽取方法,已经成为研究文本的主要方法。它通过对文档的生成过程进行建模,抽取出文本的隐含信息——主题,将文本表示成由一组主题构成的低维向量。本文的研究目的是提出一种融合多个外部特征的改进主题模型,挖掘科技文献的隐含主题,从而研究主题演化和作者兴趣变化。研究意义在于为文本语义挖掘提供一种有效的模型和实现方法;在实现文本主题抽取的基础上,研究主题变化和作者兴趣变化的规律。论文的主要工作有:(1)主题模型的文献计量分析。在web of science中检索并获取主题模型相关的文献,绘制了国家与机构聚类图谱、共被引文献聚类图谱和关键词聚类图谱,可视化地呈现了主题模型相关研究的全貌。结果表明,主题模型的研究前沿朝着多样化的方向发展,不仅在传统的文本挖掘、语义分析上有了新突破,而且在社会化媒体、大数据等新应用环境下取得了新的进展。(2)提出一种改进主题模型。在研究了主题模型发展过程中的基础理论模型和应用研究现状后,结合动态主题模型和作者主题模型的优势,引入作者和时间两个外部特征,提出动态作者主题(Dynamic Author Topic,DAT)模型。然后从模型的输入、基本假设、模型的表示和参数估计四个方面详细论述了模型的实现过程。最后将该模型和其他主题模型进行了对比分析,表明了DAT模型在应用场景和复杂度上的优势。(3)主题演化和作者兴趣变化研究。利用动态作者主题模型抽取文本主题后得到主题词项概率分布和作者主题概率分布。根据主题词项分布,研究科技文献的主题内容变化和强度变化。根据作者在不同时间上对主题的关注度变化,研究作者兴趣变化。实验表明,DAT模型能够较为准确地反映主题演化和作者兴趣变化。本文的研究成果是,通过文献计量分析,揭示了主题模型相关研究的国内外现状和前沿热点。针对主题模型仅限于分析文档的内部特征,而不考虑外部特征的缺陷,提出了动态作者主题模型。通过主题抽取实验,证明了该模型可用于文本主题演化研究和作者兴趣变化研究。
其他文献
前置胎盘是产科较常见的并发症,鉴于前置胎盘给母儿带来一系列较为严重的危害,也给护理工作带来一定难度。为了更好地配合医疗工作,对本院67例前置胎盘孕妇进行分析和回顾,提出了
目的探讨颅脑损伤并发中枢性尿崩症的临床特点及治疗方法。方法回顾性分析我院于2008年1月至2014年2月收治的87例颅脑损伤并发中枢性尿崩症患者的临床资料,对其进行总结分析
古滇国首饰凝聚着滇人的审美思想与精神内涵,在设计表达上具有鲜明的地域特点和民族特色。为了探究古滇国首饰的设计文化,文章从艺术风格与设计表达两个层面对古滇国首饰的造
随着我国教育改革的不断发展, 素质教育成为高校教学的首要目标.其中政治信仰模糊、 价值观不正确等是当代大学生的主要问题, 加之高校的思政教育工作不到位, 导致学生综合素
如今我国社会经济快速发展的同时,也促进了各个行业的发展,同时为建筑行业发展带来了新的生机以及活力,而我国建筑工程领域此时也在不断的向前迈步。随着我国科学研究领域的
全面深化改革对国有企业发展提出了新的要求,同时对国有企业审计目标、审计范围以及审计方式都提出了新的考验。不断明确审计目标和范围,完善审计方法,强化审计力度,是推进国
初中阶段,由于生物为非中考科目,在追求升学率的大背景下,生物教学存在一种被边缘化的趋势。如何改变这种状况,新课程改革给教师指明了方向,那就是提高生物课堂教学的有效性。
针对目前道德教育的弊端,崇真中学结合崇真文化和核心价值观教育,创设“假日修行”德育课程,利用日常的双休日、节假日,把德育活动渗透到学生真实的日常生活中。假日修行采用课程
目的 观察补肾活血汤对宫腔镜治疗宫腔粘连患者内膜修复及妊娠结局的影响。方法 将72例宫腔粘连患者随机分为观察组和对照组。2组均给予宫腔镜手术治疗,对照组术前术后给予常
委内瑞拉超重原油的探明储量居世界首位。委内瑞拉拥有数千亿桶超重质原油和沥青沉积物,大多在委内瑞拉中部奥利诺科重油带。据美国能源情报署估算,奥利诺科重油带的可采储量在