基于图分析的新闻话题检测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:pangzhu311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新兴的在线新闻平台为人们获取信息提供一种新的途径,随着这些平台上各种新闻数量的爆炸性增长,人们在海量新闻中很难找到有价值的话题。因此,如何从各种在线新闻中发现有意义的话题成为一项重要任务,新闻话题检测技术应运而生。新闻话题检测是话题检测与跟踪(Topic Detection and Tracking,简称TDT)的子任务,近年来引起广泛关注。通常,一个话题可以被认为是在特定时间或地点发生的特定事件以及与之直接相关的事件。新闻话题检测在很多领域都具有重要的应用,如在舆情监控、突发事件检测、信息安全领域等。当前大多数新闻话题检测方法按照对技术手段的选择大致可以划分为三类:基于特征提取的话题检测方法、基于概率模型的话题检测方法和基于图分析的话题检测方法。其中,基于图分析的话题检测方法引入图结构来进行文本表示,利用文本内容特征项及特征项间的关联关系构建文本图实现话题检测,在话题检测领域得到广泛关注。但是,大多数现有基于图分析的话题检测方法还存在一些问题,比如:1、仅考虑新闻文本中词与词之间的关系,未充分考虑不同单词对文本贡献度的差异和单词间语义关联对话题检测的影响;2、现有话题检测方法未充分利用新闻文本特点和新闻关键要素特征,缺乏针对语料特点的建模分析。本文基于以上分析,围绕基于图分析的话题检测方法展开研究,主要工作如下:(1)充分考虑不同单词对文本贡献度的差异和单词间语义关联信息对话题检测的影响,提出基于关键词图的新闻话题检测模型(News Topic Detection based on Keyword Graph,简称KG-NTD)。将新闻候选词词频与位置信息融合计算位置偏置权重表示不同单词对文本贡献度的差异,利用词嵌入计算单词的词间吸引力分数替代单词的共现频率充分表示单词间的语义关系,将两者结合,改进Text Rank评分计算方式,提取得分较高的单词作为新闻关键词;将提取的关键词作为顶点,关键词之间的共现关系作为边,构建关键词图;采用增量聚类对新闻文本进行聚合,其中每个文本用关键词图表示,文本之间的相似度用图核计算。在三个新闻数据集上的实验结果表明,与对比方法相比,所提出模型可以获得更好的检测效果;在THUCNews数据集上的实验结果表明,所提出模型的时间复杂度低于对比方法。(2)充分利用新闻文本特点和新闻关键要素特征,提出基于最小熵原理的新闻话题检测模型(News Topic Detection based on the principle of Minimum Entropy,简称ME-NTD)。提取新闻关键词,考虑新闻文本特点,将关键词融入新闻标题,实现对新闻长文本的压缩,并借助词嵌入将压缩文本映射成文本向量;提取新闻实体要素,将多特征新闻实体要素通过语义匹配进行融合,计算新闻文本间的关联权重;构造新闻文本关联图,图节点对应新闻文本向量,节点间的邻边带有关联权重;利用最小熵原理分层编码的思想,对文本关联图上的节点进行随机游走实现话题和话题内对象的分层编码,通过最小化编码长度,实现高密度子图挖掘,获得新闻话题。在三个新闻数据集上的实验结果表明,与对比方法相比,所提出模型可以获得更好的检测效果;在THUCNews数据集上的实验结果表明,所提出模型的时间复杂度更低。
其他文献
当前,部分国有企业人力资源管理和激励机制仍面临一些问题和挑战,需要及时采取有效策略以优化国有企业的人力资源激励机制。本文首先对国有企业激励机制概述,包括定义、类型、实施的必要性。笔者分析发现,国有企业激励机制存在着一些显著的问题,包括缺乏公正、公平的薪酬激励,过度依赖物质激励,缺乏长期的职业发展和学习机会,员工参与度低以及工作环境和企业文化不佳等。然后针对这些问题,提出了一系列激励策略,旨在优化国
期刊
复杂网络是由大量节点和节点之间错综复杂的关系共同构成的网络,其具有自组织、自相似、吸引子、小世界、无标度中部分或全部的性质。在复杂网络中,与大多数其他节点相比,一些具有高度影响力的特殊节点在网络的结构和功能中起着举足轻重的作用。因此,在网络中寻找重要节点的研究应运而生。基于上述背景,本研究分别从寻找单个核心领导者和寻找一组关键传播者的视角出发,建立了节点重要性评估和免疫策略之间的关系,探讨了两个方
学位
磨损与腐蚀是机械零部件最常见的表面失效形式,是表面工程技术领域最值得关注的研究对象。由磨损与腐蚀导致机械零件的损坏严重影响机械设备整体的使用寿命,造成了极大的经济损失。表面失效与材料的表面特性密切相关,因此,表面改性是提高工程构件使用寿命和安全可靠性的有效途径。如今,表面硬化、热处理、表面涂层等多种工艺被用来改善材料表面性能。由于可以提供更好的外观和卓越的性能,表面涂层已经被广泛接受并成为重要的改
学位
众包技术是伴随着互联网的普及而出现的新型工作模式,即外包工作给互联网工人。随着机器学习技术的发展,标注数据集的缺乏日益成为性能瓶颈。传统的专家标注数据方式耗时费力,众包以其廉价、快速的特点成为标注海量数据集几乎唯一可行的方法。然而由于众包工人和任务的缺陷,结果中往往带有噪声,如何从嘈杂的众包结果中挖掘出高质量的数据成为研究热点。目前的众包研究主要关注质量控制和成本控制问题,而完善的工人与任务模型是
学位
<正>尽管当下的小学数学教学制度已经完善,但是随着对教学要求的不断提高,当下对小学数学教育也提出更高的要求。随着科学技术融入小学数学教学课堂,演变出的教学方法层出不穷,其中情景教育对小学数学课堂有更好的促进作用。为了进一步提高小学数学课堂教学效果,本文将对目前情景教学存在的问题进行挖掘,通过分析情景教学的特点和作用,探讨如何在科技发展环境下开展小学数学教学与情景教育的融合。
期刊
<正>党的二十大报告擘画了以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,是新时代全面建设社会主义现代化国家的理论指南和行动纲领。税收事业是党和国家事业的重要组成部分,税收现代化是中国式现代化的重要内容。全国税务系统深入学习宣传贯彻党的二十大精神,将税收现代化置于中国式现代化的理论和实践发展中进行认真思考、积极研究、建言献策,主动探索如何更好发挥税收职能作用服务中国式现代化。
期刊
小学语文教学应与学生的生活相联系旨在开扩学生的视野,提高学习语文的兴趣。本文将分析生活对语文教学的意义并探讨如何实现小学语文教学的生活化以此提高语文教学的教学质量。
期刊
已有文献较少从创新效率的无效性角度关注创新激励政策的作用。随着国家创新激励政策实施力度不断加大,强化政策实施精准性与有效性已成为提高企业创新系统整体效能的重要支点。基于中国A股上市公司面板数据,运用DEA两阶段模型从企业创新无效性的视角剖析典型创新激励政策——高新技术企业优惠税率政策对处于不同生命周期阶段的企业创新无效性的影响与作用机制。分组描述性统计结果显示,成熟期企业所受税收优惠、企业规模和员
期刊
随着网络与人们生活越来越紧密的结合,每个人都成为互联网上信息的生产者,每天有海量的数据在产生,信息检索成为了一个十分重要的课题,人们对于信息检索的需求也不再是单纯的用关键字查找相关文本,而是文本、图片、音频、视频等各种模态的数据互相检索查询,因此跨模态检索成为了信息检索方法研究的热点。跨模态哈希方法由于其额外空间占用低、检索速度快的特点成为了跨模态检索问题的一个优秀解决方案,因此受到越来越多的研究
学位
随着互联网大数据和信息技术的飞速发展,各类社交平台相继兴起,随之而来的是海量的数据,其中大部分是文本数据,而如何从文本中提取出有价值的部分,则正是自然语言处理的研究内容。在这些文本数据中,又以陈述句居多,如何针对这些句子,提出合理的问题,正是问题生成所要解决的。如今的在线教育行业正向以人工智能、大数据为基础的智慧教育发展,在这其中,需要为学生提供更多针对性的评估方法,这些往往都是以提问的方式出现。
学位