基于查询的多文档自动文摘

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Xusian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动文摘是自然语言理解领域中的一个重要的研究方向。多文档文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息,将人们从繁琐、冗余的信息中解脱出来。基于查询的多文档自动文摘(Query-basedMulti-document Summarization)可以根据需要或者用户的兴趣提供相应的有侧重点的文摘。它能够把焦点放在用户关心的部分,考虑了用户的兴趣,是实现用户个性化文摘必不可少的技术。 本文围绕基于查询的多文档自动文摘系统,针对其关键技术展开研究,本文的主要工作和特色如下: (1)采用了基于隐马尔可夫模型(Hidden Markov Model)的实体识别技术,将实体信息引入文本的分析过程,便于更好地理解文本的主要信息。 (2)深入研究了主题划分技术,并把这种技术引入到基于查询的多文档文摘系统中,预先对文档集进行主题划分,减少用户查询的响应时间。 (3)结合自动问答的特性,对用户提交的问题进行分析,其中包括命名实体识别和隐实体识别,以更好地理解用户查询请求。在问句分析的基础上,根据文档集预先主题划分的结果,提出了一种缩减摘要范围的计算方式;并提出了一种融合多种特征计算句子重要性的方法。 (4)在参考ROUGE评价系统的基础上,设计了一种针对中文自动文摘的评测系统《中文ROLIGE评测数据包》。
其他文献
目前,电子商务最常用的身份认证方法是由权威认证中心CA(Certificate Authority)负责为客户颁发表明其身份的数字证书。然而,基于PKI(Public Key Infrastructure)的数字证书
多媒体实时教学系统是指在计算机网络环境下,借助现代化的多媒体技术进行教学的计算机辅助教学系统。在网络多媒体教学系统中,允许不同时空上的学生共享学习资源,通过协同对
近年来,分布式拒绝服务攻击(DDoS, Distributed Denial of Service)严重影响着Internet安全,给Internet的应用和发展带来了极大危害。目前,网络流量的自相似性、时间序列分析
学位
计算机网络技术的发展和应用便利了社会、生活的方方面面,而无纸化考试更作为一个具有广泛前景的应用领域变革了传统的考试方式。随着无纸化考试系统的研究与发展,以互联网技
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课
汉语隐喻处理是自然语言处理的一个重要研究分支。目前人们越来越清楚的认识到隐喻在思维及语言中所处的中心地位,从计算语言学和自然语言处理的角度来考虑,汉语隐喻自动处理问
嵌入式系统的开发已成为新的行业热点,将嵌入式应用于工业控制类产品中,并开发出优秀的人机交互界面,是嵌入式发展的趋势,拥有广阔的市场前景。近年来的市场需求显示越来越多的嵌
数值试井是油田开发方案和调整方案编制、动态预测等油藏管理的重要技术手段和基本工具,是找到提高最终采收率的方法和途径,在现代油藏开发管理中发挥着越来越重要的作用。大型
网络的飞速发展同时引发了Internet结构的改变,考虑到在一个复杂的通信网络中,多种不同设备的互操作性,为了保证网络中各实体间能够正确、可靠地进行通信,必须根据协议规范对各个