面向查询的多文档自动文摘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:buynewer1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的飞速发展为用户提供了丰富的信息资源,同时也促进了信息处理技术的崛起。通过信息处理技术,可以帮助人们更加有效地组织、总结和分析网络上的各种资源。而这当中,信息的智能检索与自动摘要技术最为关键。检索技术是人们获取所需信息的有效途径。而自动摘要技术则可以减轻用户的阅读压力,帮助他们提取主要的相关信息;该技术有利于信息的检索和再次处理,其信息表现的简洁性、清晰性是信息挖掘的有效手段。本文重点研究了面向查询的多文档自动摘要技术。它是自然语言处理领域一个新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。结合目前研究状况,在综合分析查询信息和相关文档集合主题的前提下,设计并实现了一个面向查询的多文档自动文摘系统。主要的研究工作如下:1.提出了一种多特征融合的文摘句选择方法。面向查询的多文档文摘要求能满足查询的需求,同时代表相关文档的主题。针对这一特点,综合挖掘句子与查询的关联特征以及句子全局关联特征,对其进行重要性分析。这样一方面可以保证文摘句与查询的高度关联性,同时兼顾了文档主题。最后,通过采取一种基于改进的MMR方法挑选文摘句,减少摘要的冗余信息。随机实验表明:其有效性在整体上优于只依赖句子重要性的选择方法。2.在文摘句选择过程中采取了两种优化策略:为了获取句子与查询的关联性,采用了基于概念的句子表现形式;通过构建语义图,挖掘句子的全局关联信息,其优势在于可以更加准确、直观地判断节点的全局特征。通过DUC 2005年数据集上的评测,比较了两个特征在不同的融合比例下对文摘质量的影响。3.实现了一个基于查询的英文多文档自动摘要系统。在预处理阶段,综合了词干化处理,指代还原,同义词合并等技术,提高了句子在表现形式上的有效性。在检索阶段,采用了基于密度分析的排序方法。最后在测试阶段,从实验语料库的构建到评测方法的选取均做了相应的尝试,不但验证了本文方法的可行性,还为结果分析奠定了良好的基础。
其他文献
目的 评价小切口腓肠肌腱翻瓣术治疗陈旧性跟腱断裂的临床疗效.方法 回顾性分析2017年1月至2019年9月收治的陈旧性跟腱断裂5例,其中男4例,女1例,28~67岁.左足3例,右足2例.所有
目的 评价思则凯在预防早期中重度卵巢过度刺激综合征(OHSS)高风险妇女中的应用价值.方法 将263例OHSS高风险行全胚冷冻的患者随机分为对照组和思则凯组:对照组(n=148)自取卵
光子代替电子作为信息的载体是人们的一个共识,因为光子技术具有高传输速度、高密度及高容错性等优点。然而,由于光子不像电子一样易于控制,光子器件远不如电子器件成熟,致使光信
随着移动互联网的迅速发展,人们对无线通信的需求越来越高。带有固定基础设施的蜂窝网络如果遭到地震,战争等灾害的破坏时,网络通讯就会终断。Ad Hoc网络由于具有无固定基础
目的·分析应用定量血流分数(quantitative lfow ratio,QFR)技术指导冠状动脉外科血运重建策略的初步临床结果,探索其可行性与安全性.方法·纳入2018年1月—2019年6月上海交
随着传感器技术的快速发展,传感器网络在各个领域的应用也越来越广泛。由于传感器通常部署在无人值守、条件恶劣的环境中,导致传感器网络非常容易遭到破坏。在这种情况下,评估网
目的·基于单中心人群分析腹膜透析患者慢性牙周炎(chronic periodontitis,CP)的发病状况,探讨CP严重程度与腹膜透析充分性指标的相关性.方法·选取2018年12月—2019年12月于