Web文档自动摘要技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:luckyhelen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络上的信息呈爆炸式增长,给人们带来丰富信息的同时也带来了一定的困扰。面对这海量的信息资源,如何能快速而又准确地获取信息成为一个研究热点。在这种需求背景下,对信息检索中的自动摘要技术的研究显得尤为重要,用户只浏览摘要信息而不必点开全文即可做出相关性判断,方便而快捷,进而改善信息检索的效率。   互联网本身具有开放性、自由性,且人们的交互信息也呈现出电子化、海量化、网络化的特点,而Web资源大部分都是以非结构化的形式保存的,这些因素给信息检索中自动摘要技术的研究带来了极大的困扰,尤其在处理互联网中的海量信息文本时,为了能够得到更准确全面的摘要信息,自动摘要技术在选取主题句方面面临着极大的挑战。   针对现有自动摘要技术在选取主题句时准确率低的问题,本文以Web文档作为主要处理对象,研究了Web文档自动摘要技术,设计并实现了一个它的原型系统。本文主要内容的详细描述如下:   (1)研究并分析了自动摘要理论以及信息检索中所涉及到的关键技术。为了获得高质量的文档摘要,需综合分析Web文档自身特征以及检索相关技术,主要包括题材、结构等文档特征以及查询扩展等技术,这些因素有助于提高摘要质量。   (2)对传统的VSM模型进行了研究与改进。传统的VSM模型采用的是基于词频统计的方法,对文档中词语出现频率实行浅层意义上的叠加,认为高频词最能表达文章主旨,而忽视了一词多义、同义词等现象,致使信息检索时出现话题漂移现象,故为了获取能准确表达文档中心意思的词或短语,本文采用基于概念统计的方法,充分考虑了这些关键词的词性、位置以及自身长度等特征。   (3)为了得到较高质量的自动摘要,本文在基于概念统计方法的基础上,利用本体技术对查询关键词及语义上下文进行扩展,并得到用户对该查询词的语义兴趣度,进而构造出一种新的词语权重计算公式,该公式的运用可大大提高能表达文章主旨的词或短语的权重。同时在句子权重计算过程中,为避免人为主观因素的影响,采用非线性加权方法来自动调节相关词的重要程度。   (4)为使自动摘要的质量能有进一步的提高,本文在已有词语权重计算公式的基础上,考虑到文档后可能含有读者追加的评论信息,这些信息能从侧面反映出文档的主旨信息,故提出了一种面向评论的自动摘要方法,该方法综合了文档与其相关的评论信息,以便得到更能准确表达文章中心意思的概念或词,进而增大其相应的权重值以提高摘要的准确率。   (5)原型系统。在相关理论方法改进的基础上,设计并实现了一个Web文档自动摘要原型系统。
其他文献
离群点挖掘已成为数据挖掘研究领域最活跃的分支之一。在数据库、数据挖掘、机器学习和统计学等领域受到广泛关注,在欺诈检测、入侵检测、故障检测、生态系统失调、公共卫生中
随着我国经济的迅猛发展,各地化工企业不断增多,各地方政府为了对化工企业更好地进行管理,通常将大量的化工企业集中到化工园区。化工园区在促进地方经济发展同时,同时安全和环境
同时定位与地图创建是指机器人在进行自身定位的同时创建增量式地图,并根据创建的地图来更新自己的位姿。作为移动机器人智能导航研究的重要基础和关键技术,过去十几年中SLAM问
行人检测一直是计算机视觉领域中热门问题之一,虽然经历了几十年的发展,但仍然有很多需要解决的问题。作为计算机视觉的基础问题之一,它的性能往往会制约更高层次的计算机视觉问
近年来,频繁出现危害公共安全的事件,智能视频监控作为公共安防领域中核心的技术之一,已成为人们密切关注的焦点。但是,目前的许多学者都是在理想的条件下进行的,并没有考虑到算法
现在,并行计算的平台绝大部分是分布式并行系统。分布式并行系统能否快速有效处理并行计算,除了依赖于分布式并行系统性能、网络带宽、并行算法等,还与任务分配和调度顺序有
粗糙集理论是率先由波兰数学家Pawlak在上世纪末提出的,主要针对的是分析不确定性问题。粗糙集理论中的一个重要的基本概念是属性约简,也是一个最基本问题,但是给出高效的属
目前,集中供暖已逐渐成为我国北方城镇的主要采暖方式。随着生活水平的提高,供暖面积快速增加,从而导致建筑采暖能耗迅速增加。研究结果表明,采用集中供暖分户计量系统能显著降低
图像是我们认识世界的主要途径之一,而图像边缘是图像的不变特征之一,并且保留了图像的主要信息。图像边缘存在于信号的突变点处,而图像边缘检测技术可以看成是从图像中剔除
人脸检测是人脸识别中的一项关键环节,作为计算机视觉研究领域的一个热点,并广泛应用于视频监控、门禁系统以及公安系统等领域。本文把混沌理论和人工鱼群算法引入到AdaBoost