基于主题模型的文本挖掘的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hondaboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来以及互联网的不断发展,以文本资源为典型的各种资源呈爆炸式增长,从纷繁复杂的文本资源中挖掘有潜在价值的、用户感兴趣的信息变得愈加困难。研究人员钻研了各种算法、设计了各种工具以便用户能够帮助我们快速、有效地理解大量文本内容,这些工作归结在一起主要是文本主题挖掘技术。主题是文本的灵魂,发掘文本主题是用户去粗取精、去伪存真、从感性认识到理性认识的飞跃过程,是用户对文本深入开发的过程。本文首先利用LDA主题聚类技术挖掘期刊论文中的主题信息,发现主题模型对期刊推荐方法有较大的帮助,但是也存在一定的问题,例如LDA主题数目确定困难、主题随时间发生变化。因此本文又深入探索了如何挖掘主题随时间的变化并可视化展示,即主题演化信息及可视化展示问题。发现主题演化信息并展示对了解主题的研究热点、演变趋势以及对未来进行预测等有很大帮助。文本主要内容如下:首先,本文研究了主题模型对期刊推荐的应用价值,以潜在狄利克雷分配(LDA)主题模型的结果为基础,结合SVM分类算法,大大提升了分类算法在期刊推荐的效果。论文投稿不仅牵扯到论文和期刊的研究方向,还牵扯到论文以及期刊的质量高低,为了在学者投稿时帮助学者选择合适的期刊,本文对LDA主题模型进行深入学习,结合SVM分类算法进行期刊推荐,实验发现基于LDA的期刊推荐算法明显优于基于SVM的期刊推荐方法、基于内容的期刊推荐方法、基于用户的期刊推荐、基于期刊相似度的推荐方法,而且本文在对推荐错误的论文进行研究发现有些期刊存在发表与自己研究主题不大相符的问题。其次,本文利用分层的狄里克雷分布(HDP)主题挖掘算法研究了主题演化问题(主题的分流、合流,主题的渐增、渐减,主题的新生、消亡),并利用主题河将主题演化信息生动地展示出来。本文以汽车专利为出发点研究汽车产业中的主题演化信息,将HDP算法应用到汽车专利主题聚类中,通过当前主题以及加入历史信息之后的主题变化来发现主题之间的分流、合流等关系,然后将主题以及主题的分流、合流信息利用可视化技术直观展示出来。实验发现中文汽车专利有三个重要主题,而且各个主题之间有分流、合流,有逐年递增也有逐年递减,有新生主题也有消亡主题等各种形式。
其他文献
随着现代社会日益趋于网络信息化,网络信息系统在日常生活中扮演着越来越重要的作用。虽然各种传统的安全措施提高了网络信息系统的安全性,但各种攻击、故障和意外事件还是会
实验室和实训基地是高校尤其是高职院校的重要教学场所。随着计算机应用技术的普及和和公共计算机实验室对外开展业务逐步增多,因人为原因和流行网络病毒对实验室软件、网络
学位
随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究的热点。 在
模式分类算法是数据挖掘研究的一个热点和难点问题,相关算法在许多领域被广泛应用。由于在许多工程实践中,分类精度是评价算法性能的重要指标。所以,高性能的集成方法近年来
学位
随着现代科研管理的发展,计算机信息管理系统越来越受到科研单位的重视,科研信息管理系统是科研管理中不可缺少的一部分。因此改进传统科研管理系统的工作方式,构建灵活、安全、
随着嵌入式技术的发展以及智能控制向着多领域的延伸,越来越多的设备需要高级的实时操作系统的支持。Linux操作系统由于其开源、免费、应用众多、稳定安全等特性而广受青睐。
本文主要介绍了基于.NET的考试系统、管理子系统的需求分析、总体设计和详细的设计过程、并在此基础建立了后台数据库,利用ASP.NET和SQL(Structured QueryLanguage)数据库技
多Agent系统(Multi-Agent System)作为分布式人工智能(Distributed Artificial Intelligence)的重要组成部分,已经迅速成为人工智能研究的活跃领域。如何分解待分配的任务、求解任
现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育理念和形式,与之相随,基于网络环境下的教学交互活动,在今天已经成为广播电视大学远程开放教育教学的重要环节。
当前,网络融合已成为网络发展不可阻挡的趋势。在NGN的框架下,3GPP引入的IMS网络结构及其核心协议SIP为网络融合提供了可行的方案。SIP协议是由IETF提供的应用层信令控制协议,用
学位