面向网络新闻文本的话题发现与热度评价分析方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:jianxiaxjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的蓬勃发展和互联网用户日益增长,庞杂的网络数据使得有效信息的采集和组织愈发困难。网络新闻作为信息传播的主要媒介,既是政府、企业等机构进行价值展示,理念表达的重要方法,也是社会民众参与公共生活,关注社会发展的主要渠道。如何将大量无序网络新闻数据进行提炼,快速准确的挖掘其中有价值的内容是目前信息处理所面临的一大挑战,而话题检测与追踪(Topic Detection and Tracking,TDT)是应对该挑战的重要方法。热点话题探测(Hot Topic Detection,HDT)作为TDT领域的一个重要研究点,意在将海量网络新闻进行类簇划分,获得新闻话题,并对话题关注度进行分析,最终实现新闻报道中的热点话题挖掘。作为新闻语料的“粗粒度”描述,新闻热点话题的挖掘能够使人们快速聚焦自己所关注的内容,了解事件发展的概况。本文针对传统新闻热点话题发现three-step:特征表示—话题聚类—热度分析的方法做出改进,首先,在特征表示阶段,为解决VSM等方法缺乏语义表示的问题,通过关键词提取在保留语义的情况下对新闻长文本进行压缩,同时利用词嵌入强化文本向量的语义表达能力。其次,在获得文本特征向量表示后,结合新闻实体要素构造文本关联图网络,以高密度子图挖掘替代一般性聚类算法实现新闻话题发现。最后从用户和媒体的角度同时对话题热度进行计算分析。主要的研究内容集中在以下三个方面:第一是基于词图网络模型的无监督新闻关键词提取方法。本文通过比较分析现有的关键词提取方法,并进行归纳总结,针对传统基于词图网络模型的关键词提取方法未能充分考虑新闻结构特征和单词间语义关联对关键词提取的影响。提出将新闻候选词词频与位置信息融合计算“位置偏执权重”,表示不同单词对文本贡献度的差异,利用词嵌入计算单词的“词间吸引力分数”替代单词的共现频率充分表示单词间的语义关系。最后,将两者结合,利用Page Rank的迭代方式计算单词得分,在收敛后,得分较高的单词被认为是新闻关键词。第二是基于最小熵原理的新闻话题发现方法。本文从信息熵的角度对新闻话题发现的方法进行研究。该方法首先提取新闻关键词和新闻实体要素。将关键词融入新闻标题,实现对新闻长文本的压缩,并借助词嵌入将压缩文本映射成文本向量。然后将多特征新闻实体要素通过语义匹配进行融合,计算新闻文本间的关联权重。以此构造无向带权的新闻文本关联图网络,网络节点对应新闻文本,节点间的邻边带有关联权重,在图网络上设置随机游走,通过对话题内文本和新闻话题进行分层编码,利用最小熵原理去冗余的核心思想,最小化编码长度,即可获得最佳的图网络高密度子图划分,以此实现新闻话题的挖掘。第三是基于时间序列的新闻话题热度评价分析。根据事件发展规律,新闻话题热度随时间变化,话题热度受用户和媒体的关注度影响,因此本文从话题的用户关注度和媒体关注度出发,设计话题热度值计算模型,判断时间域内的热点话题。其次,根据新闻事件报道的时间,对话题在时间序列上的热度变化进行分析。本文依托从新闻门户网站爬取的新闻语料,在三个研究点上进行分别进行实验,综合三点最终达到新闻热点话题挖掘的目的。实验结果证明本文提出的新闻热点话题发现方法的可行性和准确性。
其他文献
伴随着我国的城市化进程,在城市交通设施日益完善的同时,机动车保有量急剧攀升,城市道路网承受着巨大的压力,致使城市交通拥堵、环境污染等问题逐步加重。智能交通系统(Intelligent Traffic System,ITS)凭借其先进的科学技术手段已经成为减缓交通拥挤和满足出行者意愿的最有效途径之一,其核心功能是实现交通控制与诱导,而实时、高精度的短时交通流预测是提升诱导能力及道路管控的前提。通过对
场景深度估计是计算机视觉中重要课题之一。准确地从图像中获取场景的深度信息,对重建场景三维结构信息起着至关重要的作用,对物体检测、语义分割等计算机视觉任务具有极为重要的意义。由于单目深度估计本质上是一个病态问题,传统研究主要是基于结构光和双目等方式。随着研究者对深度学习的研究越来越深入,单目深度估计重新引起了研究者的注意。本文中提出遮挡线索引导和场景聚合的深层神经网络(DCNN)模型,能从单张彩色图
当前,具有自主导航功能的无人机和移动机器人等无人系统逐渐被应用于各个领域。在众多的关键技术中,同时定位与地图创建(Simultaneous Localization And Mapping,SLAM)是实现无人系统自主导航功能的基础和核心。视觉SLAM通过视觉传感器捕获的图像序列在未知环境中估计无人系统的位姿并建立环境地图。然而现有的视觉SLAM方法存在鲁棒性较差,适用场景有限等问题,在无人系统快
悬浮3D显示技术是3D显示技术的一个重要发展方向,这种显示技术可以给观看者带来真实、自然、沉浸感强烈的3D视觉体验。为了实现真实自然的3D显示效果,许多科研工作者提出了多种悬浮3D显示技术方案。但是,现有的悬浮3D显示技术还存在许多问题,例如分辨率低、视角小、像差严重等问题。为了实现高质量的悬浮3D图像显示,针对上述问题,本文对提升悬浮3D显示系统的关键技术进行了研究。论文的研究内容和创新点如下:
本报告的撰写是基于笔者参与的真实项目:Complete Guide to Camping and Wilderness Survival英译汉翻译项目。该项目受郑州哈林秀王体育文化传播公司委托,历时4个月完成。项目源文本属于科普类信息文本,原著总计约300页,字数约21万字(以译文终稿汉字计数)。来自外文院的13位英语笔译专业研究生组成了本次项目的项目小组。本报告将以翻译项目经理和译员的角度,对该
网络游戏以及网络游戏画面被认为可以构成作品,而在此基础上产生的网络游戏直播画面的法律属性则仍然存在争议。网络游戏直播画面的著作权属性需要分为游戏主播直播画面、电子竞技赛事画面两种不同的类型加以讨论。网络游戏直播画面涉及的主体众多,在认定其著作权归属时要厘清游戏开发商、赛事主办方、游戏主播以及直播平台之间的关系。结合行为人客观上的违法行为、损害事实,违法行为与损害后果之间的因果关系、行为人主观上的过
卡洛斯·阿尔贝托·托雷斯是世界比较教育学会联合会会长,美国加利福尼亚大学洛杉矶分校教授。本文主要研究托雷斯的成人教育政治社会学思想。应用文献法、系统分析法、比较研究法等方法,分析了托雷斯成人教育政治社会学的思想影响因素、生平经历、时代背景、理论基础、主要观点、思想评价和影响启示等。在新自由主义的背景下,为研究成人教育的发展变化,托雷斯站在政治社会学的角度,揭示了新的社会文明危机,重新解释了终身学习
在民族地区环境生态恶化、人口高速流动、传统文化式微等叠加下,各类复杂性、速变性的社会问题倍增。兼具公益性和公共性特征的非营利组织逐步在民族地区的社会发展、社会秩序形成、公民价值观和社会风气的养成等多领域崭露头角,但公信力不高、透明度不足、“小老树”等问题依然存在,组织战略管理流于形式。然而,国家政府的管理模式正在从“管制”走向“治理”、社会利益诉求多元、跨界合作日趋常态化,品牌逐渐成为非营利组织获
当前我国电信业正面临量收不匹配,收入增长乏力的情况。2019年提费降速仍在持续,携号转网已全面实施。面对政府监管和市场竞争激烈的环境,电信运营商的收入压力将更为严峻,因此必须加快转型步伐,培育新的业务增长点。ICT即信息通信技术(Information and Communication Technology,简称ICT),是将信息技术与通信技术融合后向客户提供综合信息服务,能够较好地满足客户个性
本论文以医用Ti49.2Ni43.8Cu7合金为研究对象,采用电化学方法在其表面构建了多孔结构并在其内部原位沉积了含有羟基磷灰石和抗菌银离子的生物功能复合涂层,系统考察了该生物功能涂层的制备工艺对Ti49.2Ni43.8Cu7合金表面形貌和表面性能的影响,为设计开发兼具抗菌功能和生物活性的医用钛合金表面处理技术提供理论指导和实验参考,具有良好的临床应用前景。阳极氧化研究结果表明,医用Ti Ni C