网络舆情热点主题词提取研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lelouchX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
热点主题词提取技术是网络舆情热点话题发现的基础,即利用计算机对海量的网络信息进行处理并提取热点主题词,能给进一步进行与网络舆情相关的热点话题挖掘提供很好的利用结果;另外,它也是用来研究提高信息检索速度,或作为准确抽取自动摘要的有效方法。本文针对传统热点主题词提取技术中的噪音词库的建立和热点主题词的判定展开了研究,提出了相应的改进算法,并对热点   关键词的提取问题进行了有效的探讨。   首先,本文对网络舆情热点主题词提取技术的现状和发展进行了简要的回顾。文中分别对网络舆情信息挖掘的相关技术和主题词提取算法作了分析。网络舆情信息挖掘主要包括信息来源和信息采集等部分,舆情信息分析关键技术包括话题检测与跟踪和文本倾向性分析等。主题词提取算法中介绍了常用的几种主题词提取算法并对其进行比较分析,包括基于语义的主题词提取等。   然后,本文着重研究了基于多级过滤的主题词提取算法,详细描述了其整体流程图,通过分析其相关技术和整体逻辑结构,针对传统的基于词频的噪音词提取方法和主题词提取方法的缺点,做了进一步的改进,主要分为改进的噪音词提取模块和热点主题词提取模块,把概率论与数理统计中方差的概念引入到对噪音词提取的方法中,以此提出了基于联合方差的噪音词提取方法,并详细描述了改进后噪音词提取算法的步骤和流程图。同时为了进一步提高热点主题词的可信度,改进传统的对热点主题词的判定方法,提出了基于关注度的热点主题词提取方法,并把热点主题词提取的实验结果与新浪网中的热点新闻标题进行验证比较。实验证明,本文改进的算法具有稳定性和高效性,并具有一定的可信度。   此外,分别使用大规模数据语料和真实新闻语料对本文提出的基于联合方差的噪音词提取方法和基于主题词关注度的提取方法进行了实验,并对测试结果进行了比较和分析。实验结果表明,本文改进的基于多级过滤的主题词提取方法对于处理新闻语料热点主题词发现的问题具有一定的优势。   本文最后对论文所做的工作进行了总结与评述,并提炼了热点主题词提取中值得继续研究的若干问题,为以后的研究奠定了基础。
其他文献
在遥感应用领域,面对遥感大数据,集群系统的引入,产生了很好的效果,保证集群的稳定性和可靠性非常必要。其中集群故障的及时检测和处理显得尤为重要。本文研究的内容,旨在为“遥感共性产品生产系统中的故障检测及处理”提供一个有效的策略方法。论文针对遥感共性产品生产系统中的故障检测和故障处理,进行了两个方面研究:一是根据目前系统的现状,提出一种故障检测的算法,该算法采用改进的DLHB心跳机制算法针对软硬件原因
随着信息科技的快速发展,加上现在人们的环保意识的增强,各个行业都推行无纸化办公。通过网络,工作人员可以将电子文档轻松的在各个部门间传阅,这极大地减少了人力和物资的开
随着传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信等计算机技术的飞速发展,无线传感器网络(WSN,wireless sensor network)已经广泛应用于各个行业。由于用户只有在
随着流媒体的快速发展,如何令流媒体在网络环境下更加安全、稳定、高速的运输成为了研究的热点。应用层组播网因其无需额外的硬件设施,也无需修改网络协议,易于流媒体应用在I
随着网络和计算机的快速发展,随着人们对网络使用的普遍,构建安全、可靠的计算机网络世界的需要越来越迫切。目前,通过网络平台,人们可以进行许多日常的办公,交流,买卖等等行
如何有效利用学评教数据在教学管理中的决策支持作用,是高校需要长期关注和研究的课题。对学评教数据的简单使用,难于发现隐藏在数据中的有用知识,不能有效地对决策起支持作
随着半导体技术、传感器技术、无线通信技术、嵌入式计算技术和微机电系统等技术的快速发展和日益成熟,使得具有低成本、低功耗、多功能特点的微型传感器能够得到大量的生产,
本文实现了基于ArcGIS Server的警情应用地理信息系统的原型,主要功能包括:地图基本操作,如地图缩放、漫游;点击查询;属性查询;警情位置标注;周边查询;地图打印等。系统能够帮助公安
随着信息社会的发展,资源共享的要求越来越迫切,从整个世界到-个国家,甚至一个企业,一个工作组单元无不需要共享资源。资源的共享给越来越多的人带来了方便,带来了财富。但是
Linux设备驱动一般运行在内核空间,近些年来,为了提高驱动开发效率,一些研究人员提出了在用户空间下开发驱动的概念,相对于内核驱动,用户空间下的驱动有着以下优点:1,调试的