【摘 要】
:
随着网络新闻的发展,人们可以获取更广泛的信息,但也面临难以从海量新闻中快速识别时事热点的困境,因此话题检测与追踪技术应运而生。主题模型可以检测可解释的话题,被广泛应用于话题检测与追踪系统,但多数主题模型缺乏针对新闻领域的优化,存在仅考虑单一词共现信息、未充分融合语义等问题。鉴于上述问题,基于图自编码器的主题模型和基于主题推理结果的话题追踪方法被设计用于新闻话题检测与追踪系统。基于图自编码器的主题模
论文部分内容阅读
随着网络新闻的发展,人们可以获取更广泛的信息,但也面临难以从海量新闻中快速识别时事热点的困境,因此话题检测与追踪技术应运而生。主题模型可以检测可解释的话题,被广泛应用于话题检测与追踪系统,但多数主题模型缺乏针对新闻领域的优化,存在仅考虑单一词共现信息、未充分融合语义等问题。鉴于上述问题,基于图自编码器的主题模型和基于主题推理结果的话题追踪方法被设计用于新闻话题检测与追踪系统。基于图自编码器的主题模型被用于话题检测模块,该模型将细粒度共现词对和语义特征显式的引入文档建模,以获取更丰富的主题相关性信息。为了联合多种信息建模主题,该模型将语料构成图作为输入,该图以词语和文档为节点,基于文档词袋和细粒度共现词对两种词共现信息建边,并利用词嵌入表示节点特征。为了从图中推理主题,模型引入图自编码思想,利用编码器提取潜在分布作为话题检测结果,利用解码器重构词共现信息,并通过反向传播更新话题检测结果。基于主题推理结果的话题追踪方法被用于话题追踪模块,该方法结合主题词和词嵌入计算话题向量,根据向量距离度量话题相似性,进而以话题为粒度进行新增话题与既往话题间的单遍聚类,实现话题的增量追踪。实验部分在多个新闻数据集上评估新闻话题检测与追踪系统于话题连贯性和话题聚类性能上的表现。结果表明,上述主题模型和话题追踪方法可以识别更具连贯性的话题,并具有最佳的话题聚类性能,且这种提升在小型数据集上更明显。
其他文献
由于电网络造价昂贵,维护困难等因素,传统的集中式发电技术逐渐难以满足区域分布式多元化发展的需求。微电网作为一种分布式供电技术,可高效整合包括太阳能、燃料电池等多种清洁能源,因地制宜应用灵活,具有广阔的发展前景。但是,受外部环境和天气因素影响,风、光等可再生能源及非弹性负荷的不确定性变化给微电网的能量调度优化带来了巨大挑战。为此,本文以光伏发电单元、固体氧化物燃料电池(Solid Oxide Fue
党建引领既是推动乡村善治的前提,也是乡村治理显著优势的重要体现。党建引领具有保证乡村治理社会主义方向的政治优势,具有提升乡村治理体系和治理能力的功能性优势,具有保障乡村治理中人民主体地位的社会性优势。实践中,一些地方通过选派第一书记、强化党组织建设来引领乡村治理,显示出良好成效。党建引领乡村治理实践路径在于强化组织建设实现党建引领政治优势,构建党政复合治理体系实现党建引领功能优势,发挥党组织资源链
数字病理在信息管理、远程咨询、专家会诊、读片交流和实践教学等方面的应用,都依赖于清晰无损的玻片扫描图像。玻片扫描成像系统技术是数字病理创新发展的关键性技术,但是玻片扫描成像系统在将玻片数字化的过程中会因为离焦等问题,导致局部图像模糊,影响后续判读。因此,需要在病理玻片数字化之后,对全玻片扫描图像进行清晰度评价,找出其中模糊的局部图像块。由于主观评价方法费时费力;有参考评价方法因难以获得参考图像而受
在物联网实现万物互联的同时,海量数据的涌入给核心数据网络造成了巨大的压力,而且随着智能监控、自动驾驶等低延迟应用场景的出现,将数据传输到远端云服务中心会造成极大的传输延迟,无法满足实时性的需求。边缘计算作为云计算的扩展,通过任务卸载将部分任务转移至边缘执行,减少流向云中心数据量的同时降低了数据的传输延迟。而边缘设备性能不一、资源有限,如何合理进行任务卸载调度是一个重要的研究方向。现有的边缘任务卸载
近年来,图计算因其在解决实际问题中的广泛适用性而受到广泛关注。广度优先搜索算法是很多图分析算法,例如单一起点最短路径问题和中心度算法的基石。而在加速特定算法的运行速度,提高运行的能量效率方面,现场可编程逻辑门阵列(Fieldprogrammable Gate Array,FPGA)相比于CPU和GPU更有潜力。因此,在FPGA上加速广度优先搜索算法具有重要现实和学术意义。当前FPGA上的广度优先搜
近年来,计算机应用技术蓬勃发展,但不同类型的计算机应用对内存的需求大不相同。当前主流的两种异构内存系统只能满足特定类型应用的内存需求。平行结构的DRAM-NVM异构内存架构可以充分利用NVM的容量,适合对延迟不敏感、对主存容量敏感的应用,如大数据相关应用;层次结构的DRAM-NVM异构内存架构可以缓存频繁访问的数据,适合对延迟敏感、对主存容量不敏感的应用,如互联网相关应用。基于RISC-Ⅴ的可重构
大数据技术在近年来迅速发展,同时医学研究逐渐迈入信息化时代,两者的融合已经成为当下研究的热点。医疗领域的数据具有宝贵的研究价值,例如预测疾病的发生、分析患者的预后情况等。然而,医疗领域的数据往往是小样本数据集,存在数据量少的问题,无法训练传统的深度学习模型。因此,针对医疗大数据领域中的小样本问题进行研究,具有重大的意义以及现实价值。针对医学领域的小样本数据集,设计了基于医学经验的问题特征空间搜索方
对C/C++源代码程序进行静态检测,由于缺少简单易用的威胁检测模型,静态分析工具的漏洞检测结果中存在大量的误报漏洞。目前判断这些漏洞是否为误报主要依赖人工繁杂分析,人工判断这些漏洞是否真的存在费事费力,且易出错。一个有效的解决方案是使用定向模糊测试找到触发该漏洞的输入,从而验证该漏洞是否存在。目前的定向模糊测试效率低下,需要优化定向模糊测试技术从而实现漏洞验证这个功能。在基于定向模糊测试的漏洞验证
医疗数据分析的主要目的是找到疾病预测的相关因素,为医生诊断提供临床依据。现在,随着大数据技术不断发展和医疗信息化建设不断推进,越来越多的研究将机器学习应用到医学领域,从高维非线性特征中找到关键的少数特征,即医学上的相关因素。特征筛选作为处理高维数据的一种方法,能够将预测分析集中在重要特征上,帮助机器学习模型找到疾病预测的相关因素。医疗数据存在质量差、样本少、特征维度高等问题,导致现有机器学习和特征
在COVID-19爆发之后,中药一直是诊疗方案中所提及的治疗方式,为了根据指标分析探究中药在治疗该疾病中发挥的具体作用机制,遂对武汉市同济医院的COVID-19重型患者进行研究。由于在回顾性分析中存在的数据散乱和基线条件不易控制等问题,且从指标数据建立机器学习模型分析疗效是一种能被国际广泛认同的方法,论文提出了可解释的归并式机器学习方法,通过数据归并、方法归并和知识归并来构建分析模型。其中方法归并