【摘 要】
:
前沿热门技术主要是指在高新技术领域中具有前瞻性、先导性的重大技术,对于一个公司,一个部门来说,在海量的网络信息中寻找到符合自身的前沿热点话题非常重要,这些前沿热门技术话题信息随时间变化,把握好它们的变化趋势有利于社会的和谐与稳定,具有较大的实际价值和意义。话题生成的核心思想是把相似的文本信息合并在一起,传统方法是通过计算文本相似度和文本聚类形成话题,但是如果数据量太大往往会导致向量维度太大,计算困
论文部分内容阅读
前沿热门技术主要是指在高新技术领域中具有前瞻性、先导性的重大技术,对于一个公司,一个部门来说,在海量的网络信息中寻找到符合自身的前沿热点话题非常重要,这些前沿热门技术话题信息随时间变化,把握好它们的变化趋势有利于社会的和谐与稳定,具有较大的实际价值和意义。话题生成的核心思想是把相似的文本信息合并在一起,传统方法是通过计算文本相似度和文本聚类形成话题,但是如果数据量太大往往会导致向量维度太大,计算困难,不符合实际情况。而对于传统的话题生成模型LDA来说,生成的结果易出现话题间关键词相似度较大的问题。在前沿热门技术话题追踪系统中,获取的原始数据类型是新闻,博客和论文,它们的标题信息能够代表它们所在文章的中心思想,因此,引入信息熵这一概念,它代表一件事情发生后的影响力,提出了一种基于K-means和Canopy相结合的基本标题的文本聚类算法,在此聚类基础上,采用基于信息熵的LDA话题模型进行话题生成,进一步提高了话题生成的准确度。在话题的追踪方面,传统方法普遍是根据前期的数值来预测将来的结果数值,而在本系统中是预测话题的变化趋势,针对这种情况,设计了一种热门话题评估机制,实现了对前沿热门技术话题的流行度评估,并基于文本相似度算法,对系统获取的新数据实现话题归类,实现话题跟踪。在分词模块,针对前沿热门技术领域名词众多的特点,改进结巴分词模型,设计并完成了分词测试和自定义分词的功能,并在分词测试过程中实现了实体抽取功能,方便用户更好地了解前沿热点话题。在此研究基础上,设计并完成了前沿热门技术话题追踪系统,主要包含:网络爬虫,信息展示,日志记录,文本分词,文本聚类,话题生成和追踪等功能。通过传统话题生成模型和基于信息熵的LDA话题生成模型进行对比测试,改进的话题模型在话题生成和追踪方面准确率可达80%,基本能够满足用户的基本需求。
其他文献
问答系统在自然语言处理领域已经经历了长足的发展,在实际场景中,通常针对垂直领域构建问答系统,然而问答对的数据量和知识库的完整程度一直是问答对匹配精确度的核心问题。随着知识图谱的出现和发展,因其拥有针对特定领域知识的完整性和可扩展性的特点,使得知识图谱也被更多的应用到问答系统中。由于医学方面知识库的限制,医学领域问答系统一直是比较复杂的问题。本文设计了一个基于知识图谱的医学领域问答系统,主要工作为构
随着移动互联网和移动终端设备的高速发展,即时通讯软件逐渐成为人们生活中必不可少的一部分,即时通讯软件节约人们沟通成本,增添了沟通乐趣。然而,市面上的绝大部分通讯软件采取闭源设计,提高了开发人员的成本。因此制定高效的网络协议,提高通信效率,降低通信的流量成本仍然是亟待解决的问题。本文阐述的分布式即时通讯系统采用分布式架构设计,操作系统采用的是Linux Release,通信协议使用的是Protoco
在计算机CPU核心数量不断增加、多用户互联网应用广泛普及的背景下,如何提高计算机程序的并发度,使之充分利用多核CPU的优势以及网络的等待时间,成为了软件开发的重要问题。数据结构是计算机程序的重要组成部分,在这种背景下,数据结构的并发安全性与并发操作的性能也成为了软件开发人员关心的重要问题。因此,为满足软件开发人员在并发程序开发中对于无锁的、并发安全的数据结构的使用需求,基于不可变数据结构和Go语言
在当今社会中,推荐系统已经深入到生活的方方面面,日常生活中使用的互联网应用通常都会将推荐系统作为关键的部分来给用户提供符合其偏好的项目。但是随着生活越来越多地与互联网进行绑定,以往的单纯以算法论英雄的方式已经不足以满足社会的需要。而针对现有的推荐系统,即使管理员发现推荐结果出现了问题,比如给未成年人推荐了并不合适的视频或商品,由于推荐系统的黑盒特性,管理员也难以对系统进行有效的调整。因此完全把握推
传统基于Hadoop生态的离线数据存储计算方案已在业界大规模应用,但受制于离线计算的高时延性,越来越多的数据应用场景已从离线转为实时。Apache Flink作为一个近几年快速发展的分布式大数据处理引擎,凭借其在实时(流)计算上的明显优势和相对完备的SQL支持,成为各公司实时计算平台的首选计算引擎。然而传统的实时计算平台大多通过打包的方式提交任务,用户的学习成本较高,开发效率低下,任务的维护成本也
随着近些年智能移动设备的普及,对图片的背景进行虚化可以让图片更有层次感,成为一种潮流和趋势。人们在观察一张图片的时候,首先会关注感兴趣的区域,该区域可以被视为图像的前景区域,可见人的视觉注意力机制和图片背景虚化技术有很强的相关性。但是目前只有华为mate10的相机模块使用了基于视觉注意力机制的背景虚化方法,并且主流的人眼注视点预测算法忽略了图像的低级特征。因此提出兼顾模型高低级特征的模型,并将该模
弱监督图像语义分割是语义分割在研究中的一个重要分支,在自动驾驶领域、图像计算和机器人等领域有着重要的应用。相比于传统图像语义分割,弱监督图像语义分割的模型减少对精确标签信息依赖的同时又能预测出好的图像语义分割结果。其中图像级标签具有人工标记成本小,容易获取的优点,针对于图像级标签的弱监督语义分割算法,许多研究聚焦于基于种子生成、扩充、边界约束方法,但这类算法面临以下问题:传统类激活映射图生成初始种
近年来,我国空气污染现状日益严重,不仅严重影响了城市环境,而且时刻威胁着人民的健康。由于大气污染的成因十分复杂,涉及区域广,一般治理措施的实施效果往往很难达到预期,因此治理大气污染需要进行城市圈级别的联防联控。在大气污染联防联控过程中,需要对采取控制措施后的空气质量变化情况进行仿真模拟,评估模拟结果,寻求较好的控制措施。然而随着仿真模拟需求的日益增长,伴随着海量的大气模拟数据,传统的人工模拟操作低
随着互联网应用系统的发展,系统架构会因为不断的需求更新和版本迭代而变得愈加庞大和复杂,如何对业务系统进行实时高效的监控,是每个互联网应用背后需要解决的实际问题。为了保证业务系统的平稳运行,不但要对系统运行状态进行实时监控,而且要在发生异常的第一时间发出告警消息,为此设计实现了一套能一站式监控服务器性能数据、运行微服务模块的Docker容器性能数据与业务数据,且能提供高效率告警服务的业务监控和告警系
随着信息时代的大爆发,数据采集的技术持续优化,各行各业都在爆炸式地不断产生新数据,其中就包括医疗行业。如今,几乎每个医院都有了较为完整的就诊体系,将所有流程都规范化,从而有效监控病人的状态和纪录所有数据,纪录在案的医疗数据呈指数型增加。因此,利用数据分析技术和机器学习算法,将过往患者的病例纪录作为样本,训练学习出有价值的未知信息,并应用于疾病预测,有着重要的实际意义。本文针对医学数据集,从数据分析