英文自动文摘的研究与实现

被引量 : 0次 | 上传用户:xq111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术与互联网的高速发展导致了信息爆炸,人们要么迷失在信息的海洋里,要么花大量的时间去寻找自己所需的信息。在讲效率的今天,自动文摘备受关注,因为它可以帮助人们从海量的信息中提取能表达原文重要内容且简洁精练的一段文字。自动文摘涵盖了很多理论知识以及应用技术,是自然语言处理领域的一个重要研究方向。在自动文摘方法中,相似度计算扮演的角色十分关键。相似度计算是数据挖掘中经常使用的一种技术,一般包括词汇相似度、句子相似度和文献相似度等几种。在文章中,句子与句子、段落与段落之间,彼此存在着一定的联系,利用它们的相似性便可推断出句子或段落在文中的重要性,以此作为判断摘要句的一个重要指标。根据摘要句相似度匹配的结果将其进行排列,并按权值大小顺序输出,最终生成摘要。同时,在对文摘进行质量测评时,也需要用到相似度计算。本文采用的相似度计算方法结合了文摘的特点,在已有算法的基础上提出了基于LDA的一种新的相似度计算方法。结合此种相似度计算方法,进而设计了一种LDA语句递减算法,用于英文自动文摘的生成。对DUC数据进行实验,结果表明该算法有效、并能很好的执行。本文的主要研究内容如下:1、对国内外自动文摘的研究现状进行了分析,介绍了自动文摘的概念及其分类,研究了自动文摘现有的技术方法及其评价方法,并其进行了总结与分类。2、综合分析了现有句子相似度的计算方法,并提出了一种基于LDA的文本相似度计算方法。该方法通过LDA建立主题空间模型,在同一主题空间、字、句,文件和语料库被表示为向量,是一种适合文摘的句子相似度计算方法。3、结合上面提到的文本相似度方法,设计了一种新的英文文本摘要方法:LDA语句递减算法。该方法的思想为:使用上述的相似度计算方法判断每个句子的重要性,移除一个又一个不怎么重要的句子,直到摘要的长度达到极限。
其他文献
随着我国的经济发展,水资源的缺乏越来越制约着我国的进一步发展。我国的供水企业是负责水资源调控的合法经营人,其中,供水的成本核算和控制方式在很大程度上影响着供水企业的运
百度脑图是一款免费、部分开源的Web版思维导图软件.本研究的英语词汇教学内容可视化是指借助表格、思维导图,将一些在内容和结构上存在一定关系的词汇以可视化的方式呈现出
在市场经济的大潮中,有政府、政党、媒体的声音,但是,企业总是期待着有自己的声音,希望能够通过自己“流动的黑板报”——企业报,发出自己的声音,宣传自己的食业和文化。
阐述了安全评价法的起源、现状和研究趋势.根据当前进行的安全评价工作实际,介绍了几种常用的安全评价方法,及其各自的特点及适用范围,并就如何合理选择评价方法,进行了较详
2011年1月16日至18日,台北基隆河畔巍峨宏伟的圆山大饭店,迎来了来自中国大陆、香港和台湾以及越南、日本200多位伊顿电气代理商、媒体代表以及伊顿电气集团亚太区的领导和同仁
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的评价认知行为疗法在失眠伴焦虑、抑郁症状病人种临床价值。方法84例失眠伴焦虑、抑郁者,随机均分为A、B组,分别实施常规护理、常规护理+认知行为疗法,比较组间护理前后焦
随着社会现代化进程的加速,人们日益意识到石油等矿产资源的稀缺性,我国也在新能源方面持续不断地进行新的探索。汽车尾气作为大气污染的主要来源之一,其排放量在大气污染中
《列子》是一部闪烁着迷人光芒的深奥经典之作,一直被称为中国道家道教思想的结晶,也是一部中国寓言、神话和传说的故事集。全书共八章,各章均有自己独立的主题。该书从20世
纤维艺术源自古老的壁毯艺术,主要用于室内廊柱、墙壁作装饰用的地毯类工艺品,采用棉、麻、丝、毛等材料进行编织成丰富多彩、层次分明的装饰图案,其独特的艺术形式和表现手