【摘 要】
:
随着互联网的普及应用,网络已成为一个巨大的信息源。大量的数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获取带来了一定的困难。对于一些重要的新闻事件
论文部分内容阅读
随着互联网的普及应用,网络已成为一个巨大的信息源。大量的数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获取带来了一定的困难。对于一些重要的新闻事件,有大量的网站从多个角度及时提供最新的消息,方便了人们全面了解有关情况;但与此同时,面对同一主题成千上万的、内容相同或相似的网页,读者如果想获得最主要的信息,需要耗费大量的时间和精力去阅读和分析。自动综述是指针对特定的主题进行多文档自动文摘,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动文摘的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。对于多文档自动文摘来说,文摘句抽取、句子冗余排除、文摘句排序是三个主要的难题。本文提出了一种基于名实体的面向新闻专题的自动综述方法。该方法利用名实体识别统计发现重要的新闻要素,利用句子相似度排除冗余的信息,并根据时间信息排列输出文摘。针对本文提出的方法,设计了一个基于名实体的自动综述系统,实现了提出的新方法。在该系统中,我们首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,并对识别出的名实体进行频率统计。然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出初步的摘要句集合,再利用句子的相似度计算的方法排除集合中意义重复的句子,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述。实验结果表明,基于名实体的自动综述系统应用在新闻专题领域能够取得很好的文摘效果,具有实用价值。
其他文献
传统的奈奎斯特采样定理越来越难以满足数据量爆炸式增长的信息时代的数据采样需求,人们迫切需要新的采样方式。在这种背景下,压缩感知理论应运而生,实现了对信号采样的同时
网络技术的迅速发展,从根本上改变了人们的生活和工作方式,给我们社会的各个方面都带来了深远的影响。与此同时,网络潜在的危险也在不断的增加,例如,针对网络的新型攻击手段
随着Web应用的日益广泛和Web开发技术的不断发展,以用户体验型网络服务为特征的Web应用代表了目前互联网的发展趋势。在Web应用系统架构的几次转变中,富客户端模型被提出。富客
高校的公共计算机机房主要承担学校计算机文化基础课程、计算机语言、毕业设计等实践教学任务以及学生的自由上机实践。随着计算机教育的发展以及计算机机房的扩大,运用计算机
随着科学技术的不断发展,特别在计算机技术,网络技术,自动控制技术的飞跃发展,和世界文明的不断进步,人们对物质的需求也有很大程度上的提高。对建筑物的要求不再是一个能“遮风挡
椭圆曲线密码体制(ECC)是一种新的公钥密码体制,在保证相同安全强度的情况下,所需密钥长度较其它公钥密码体制要短的多,所以特别适用于存储空间和运算速度受限的移动设备。目
在人体动画的制作过程中,如何模拟真实的手部运动效果一直是困扰动画制作人员的难题。在常用的手部动画制作方法中,传统的逐帧调节技术耗时耗力,并且很难得到自然流畅的动画
随着越来越多的生物基因(组)的测序完成,生物数据不但在数量上呈指数增长,存储及维护生物数据的组织和数据库也越来越多。对生物数据的分析与研究是我们的首要目的,但正因为
地理信息系统(Geographic Information System,GIS)是操作和分析、收集、及管理空间数据地计算机软、硬件系统。它的基础是地理坐标,在处理空间数据方面有超强的能力。近年来
近年来,随着Internet/Web技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成