融合上下文信息的自动文摘研究

被引量 : 11次 | 上传用户:mmghb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文摘是了解文档主旨要点,辅助提高决策及阅读效率的主要方式。当前,信息的爆炸式增长已远超过普通受众者所能承受、理解及利用的范畴,大量无关的、冗余的信息严重干扰了受众对有效信息的获取和消化。在此情形下,旨在实现从文档中自动过滤并筛选出有价值信息的自动文摘技术其重要性不言而喻,已成为自然语言处理、信息检索等多个领域共同关注的热点研究课题。如何有效地评估文本内容的重要性既是自动文摘研究的关键点,也是难点。传统的方法大多以句子作为重要性评估的基本单元,直接依据待摘要文档的内部信息来为句子打分。然而,这种做法忽视了自动文摘任务具有的上下文相关性,即文摘的生成并非仅由被摘要对象的自身信息决定,客观存在的各种上下文信息都可能影响到对目标文本中句子重要性的评估,甚至间接决定机器摘要的生成质量。鉴于此,在以往研究工作的基础上,为了有效地利用目标文档所具有的上下文信息,同时也为了洞察上下文在辅助句子重要性评估方面的作用,本文从以下几个方面开展了研究,提出了相应的上下文信息融合的自动文摘方法,在相关数据集上的实验结果验证了本文所提方法的有效性。1、融合内容上下文信息的自动文摘方法针对内容上下文信息的融合,本文重点开展了面向查询的多文档自动文摘研究。相对于待摘要的文档集,查询通常可被视为另一种显式的内容上下文,它用于引导摘要系统在内容选择上尽可能地贴合用户的需求。本文分别提出了两种不同的面向查询的多文档自动文摘方法。方法一从与内容上下文有关的诸因素角度考虑,基于多视图协同学习来挑选查询相关句,进而通过句子关系图上的马尔可夫随机游走模型对查询相关句打分。该方法充分利用了查询和句子的内容信息及它们之间的关系,使得生成的摘要能获得查询相关性、内容显著性、信息多样性等多方面平衡;方法二从上下文协同的角度考虑,提出了基于Co-HITS-Ranking的句子打分算法,能在统一的双层图模型下融入查询、文档等不同粒度的上下文对句子重要性评估的影响,从而实现协同句子打分。在国际公开的自动文摘评测数据集DUC及TAC上的实验结果表明:本文提出的两种方法均能有效地融合查询上下文信息以生成查询导向式文摘。2、融合使用上下文信息的自动文摘方法如今,随着社交网络的蓬勃兴起,众多用户主动参与对在线内容的反馈,并辅以评论、社会标签等形式分享和交流阅读体会。这些客观存在的真实用户的使用上下文信息能否有助于揭示目标文本中真正重要的内容,能否协助发现用户的兴趣偏好以提高摘要的生成效果是值得深入探索的科学问题。鉴于此,本文重点研究了基于社会上下文的通用和个性化自动文摘方法。为了弥补现有研究较少考虑用户以社会标签形式提供的反馈对辨析文本内容要点及大众兴趣点的影响,本文提出将用户的社会标注信息作为辅助摘要的外部信息源,通过文档、用户、标签的三方协同聚类来自动发现待摘要文档的社会上下文,进而通过上下文敏感的句子打分及融合算法从目标文档中挑选若干重要且符合用户群或特定用户偏好的句子入选摘要。在Delicious社会标注数据集上的实验结果验证了本文提出的融合使用上下文信息的自动文摘方法的有效性。3、融合使用上下文和结构上下文信息的自动文摘方法作为兼具使用上下文和结构上下文特点的数据源,学术文献促进了知识的传播和交流。然而,浩如烟海的学术文献良莠不齐,极大地增加了研究者获取有效信息的难度。在此背景下,如何快速识别并提炼出目标文献中的影响点成为了众所关注的科学问题,而学术文献的影响点自动文摘则致力于解决该问题。现有的方法大多局限于考虑目标文献的外部引文句信息,而较少对引文句所处的上下文给予特别的关注。鉴于此,本文提出了基于混合引文上下文的自动文摘方法,该方法利用多种不同的引文上下文关系(即文献间的引用关系、作者间的合作关系,以及作者与文献间的发表关系)并结合正则化框架自动推理引文上下文的影响,进而通过平滑语言模型将这种影响融入到对引文句间的关系计算中,从而协助识别目标文献中真正有影响力的内容要点。在公开的学术文献数据集上的实验结果验证了本文提出的融合使用上下文和结构上下文信息的自动文摘方法的有效性。
其他文献
先例现象的借用是俄语政治笑话幽默产生的主要途径之一,先例现象广泛存在于俄语政治笑话中,俄语政治笑话借助先例现象实现其幽默功能,先例现象具有文化伴随意义和感情评价功
从基于中心地体系的Beckmann城镇等级-规模模型Pm=RKSm-1/(1-K)m出发,通过序列的对称性分析,导出三参数Zipf模型P(N)=C(N-α)-dz,证明了参数dz的分维性质(dz=1/D)以及Beckmann
煤矿企业作为我国重要的能源产业,对于保障我国的能源供应,实现国家经济以及社会秩序的稳定具有重要的作用。本文针对煤矿企业财务风险问题,首先分析了我国煤矿企业财务风险
马铃薯主粮化是农业部根据我国粮食生产的特点作出的战略选择,中国粮食虽然实现“十二连增”,但是粮食进口量与需求量也在双量齐增,粮食安全不容乐观,推行马铃薯主粮化,不仅
“互联网+”的提出给中国经济发展提供了新思路,推动着传统行业的转型升级,农业作为百业之根本,与互联网必然产生交集,“互联网+农业”势必成为现代农业的主导和未来农业的发
"经师"好遇、"人师"难求的原因是经师只重知识论、认识论层面的知识和理论的传授,人师不仅注重知识论、认识论,更重视价值论和伦理学,看重将二者有机地统一,尤重将认识论转化
传统产业的没落促使欠发达社区将旅游作为地方发展的工具。作为一种跨文化交流形式,旅游发展给当地社区居民造成的影响是一个值得探讨的问题。根据旅游者出游形式的不同,可将
随着物价水平的不断上涨,关于通货膨胀会计的探讨显得尤为重要。借鉴发达国家对通货膨胀影响的处理方法,针对公司通货膨胀会计的四个难以解决的问题进行阐述。
比较是人类认识事物的一种方式,也是语言学中的一个范畴。汉语差比范畴中的“X比YW”句式在句法、语义和语用方面都呈现出一定的特点,也是对外汉语教学中的一个重要的语法项目
为了识别当前内蒙古奶业内外环境因素,分析新时期内蒙古奶业发展面临的新问题,本文通过入户调研及收集相关资料对内蒙古奶业发展现状进行了分析,从内蒙古奶业发展在全国的地