一种基于WordNet上下文的词义消歧算法

被引量 : 0次 | 上传用户:benben0070
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在由于万维网中的知识爆炸式增长,并随着万维网快速兴起,万维网上的海量数据都是以自然语言形式存储的,例如:网页微博、各种论坛、空间、贴吧等等存储介质上,所以,关于一些知识获取、挖掘,信息传播,自然语言处理NLP等研究方向迅速火热,但是,由于存储在“介质”上的知识存在歧义性,这样使得自然语言处理的过程就变得复杂、困难,而且机器学习无法判断语言之间的歧义性。于是,词义消歧应运而生了。词义消歧是自然语言处理中一个比较重要的分支,它也是自然语言处理过程中的基础性研究,通常包含:文本处理、语言识别、机器翻译MT、信息获取IE、信息检索IR、字典查询和数据分析等领域。由于词义消歧是自然语言处理过程中的难点和重点,因为词义消歧对其他应用有着重要的理论依据和实践意义。因此,词义消歧成为了中间任务,它也成为了自然语言处理的重要过程,将其研究成果直接应用于信息处理的很多方面。词义消歧WSD(Word Sense Disambiguation)工作需要具备完备的知识推理,而目前由于获取知识匮乏导致了词义消歧后的结果导致准确率降低和覆盖率减少,这也称为是获取知识匮乏导致了瓶颈的出现,这不仅限制了词义消歧性能提升,降低了词义消歧系统的应用范围。从另一个角度讲,词义消歧也可以根据单词所在的上下文来确定该单词的具体含义,所需确定的多义词必须是该多义词所在文中的上下文之中才有可能实现的,既是一个多义词的具体含义是根据其语境确定的,而在自然语言处理过程中计算单词上下文,务必会增加时间复杂度和空间复杂度的,用于单词所在上下文进行词义消歧时直接影响词义消歧的结果。词义消歧WSD也被认为是人工智能上完备问题,这种问题将必须转化为具有结构的知识文档,再次根据系统中提供好的知识库事先定义规则确定单词词义,一种基于WordNet上下文的词义消歧WSD的关键是获取在WordNet中的知识,如果在WordNet中获取的知识越多的话,词义消歧的结果就会越理想,本文中基于WordNet上下文的词义消歧算法中实现了为歧义单词建立了语义关系图,从而为词义消歧提供了丰富并且可信的知识源,本文的算法弥补了知识获取的瓶颈问题。此外,使用WordNet作为词义消歧的唯一知识源,减少了为多义词进行词义标注的难题,这样使之词义消歧能够成功地应用到语境搜索中。基于以上问题,本文将针对如何在WordNet中获取知识和为多义词建立语义关系图作为本文的主要研究内容,由于WordNet发展至今已经有十几年的历史,在其中蕴含着丰富的知识。确定上下文的方法有三种:一是基于滑动窗口的上下文获取上下文算法;二是基于依存关系获取上下文算法;三是基于句法分析树获取上下文算法。本文的主要研究内容及成果:一是依据句法分析树获取上下文特征词的算法;分析中心词表获取上下文的特征词;根据上下文进行词义消歧。二是本文使用WordNet中多义词之间的语义关系,再结合上下文进行词义消歧。三是本文中的算法构建三种语义关系图模型,这种语义关系图模型为词义消歧提供了大量知识。本文选取实验测试集是Senseval-3作为词义消歧任务,实验结果良好。作为本文的主要研究内容,由于WordNet发展至今已经有十几年的历史,在其中蕴含着丰富的知识。确定上下文的方法有三种:一是基于滑动窗口的上下文获取上下文知识;二是基于依存关系获取上下文知识;三是基于句法分析树获取上下文知识。本文的主要研究内容及成果:一是依据句法分析树获取上下文特征词的算法;分析中心词表获取上下文的特征词;根据上下文进行词义消歧。二是本文使用WordNet中多义词之间的语义关系,再结合上下文进行词义消歧。三是本文中的算法构建三种语义关系图模型,这种语义关系图模型为词义消歧提供了大量知识。本文选取实验测试集是Senseval-3作为词义消歧任务,实验结果良好。
其他文献
本文介绍了流化床设备的基本组成与特点以及流化床技术在有色和黑色冶金中的应用现状,并结合我国国情,提出了重点发展煤基Circofer技术用于大规模生产高炉用低还原铁的建议。
目的:探讨哮喘患儿中医证型和体质特点分布情况及相关性.方法:采用临床病例问卷调查方式,对200例哮喘患儿的临床证型和体质类型分布情况进行调查,并选取100例未出现哮喘及类
随着人们对Internet网络的访问日益增加,网络的安全性对人们十分重要,如何对网络安全的评估是一个重要的研究课题。目前对于网络安全评估仍然有许多不足。传统风险评估的方法大
<正> 鉴于现有线路占用的土地较多,因而输电线路走廊多重利用的必要性正在增加;在获得新的线路走廊时,必须考虑这个问题,尤其在居民区更是如此。在这两种情况下,都必须考虑静
<正>前段时间,我去国外出了趟长差,回来一进家门就被告知,同学的父亲易老近日打来好几次电话找我,好像有什么急事。我知道他患痛风性关节炎多年,难道最近又发作了?赶忙打电话
随着计算机与智能信息处理技术的迅速发展,语音在人机交互中发挥着越来越重要的作用,其中语音合成是实现人机语音交互的关键技术之一。现阶段,统计参数语音合成以及单元挑选
当下国际新闻节目成为电视新闻改革的新热点,也是媒体提高收视率、巩固受众的重要选择之一,越来越受到业界和学界的重视。以往国内对国际新闻的研究更多集中于纸媒研究,对电视国
随着电子信息技术和计算机网络技术的发展,计算机越来越成为人们日常生活中不可缺少的重要工具,而以前的多媒体教室管理方式已经无法满足当下高等院校多媒体教室管理工作的新需
群体语言暴力作为人类社会的一种现象由来已久,并且随着人类社会不断发展,不仅没有消失,反而愈演愈烈。群体语言暴力表现出紧凑持久化、简单形象化、粗暴歧视化和虚假扩大化的特
当一本本半成品的图书在你印刷厂的生产线上飞速流转时,书是如何诞生的这个问题,是否曾在你脑海中闪现?暂时把传统的出版社编辑工作室抛到脑后,也暂停一下对遥望不及的亚马逊