基于WordNet和FrameNet的领域语义词典的构建研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hzxy05jsjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用电子计算机来处理自然语言,每一步都需要机器词典的协助。信息抽取、词义消歧、信息检索、机器翻译、智能问答系统、人机对话等所有的计算语言学自动处理技术解决问题的前提是拥有一部或多部涵盖相应语言知识的机器词典。机器词典是一个知识库,只有具备了知识库中的知识才能够处理语言问题。机器词典是计算语言学应用的前提。构建实用的有效的电子词典,一直是自然语言处理方向的重点研究问题,也是计算机智能化的关键技术问题。一直以来,中外的计算语言学者对机器词典的构建思想和构建方法各持己见,所以机器词典的构造方法方式多种多样,能够使用并解决问题的却非常少。除了WordNet和FrameNet鲜有词典能够一直发展使用。本文作者从人类认知的角度出发,从人类大脑对知识的理解角度进行探索,并结合WordNet和FrameNet的词典构造原理,提出了一套构建领域词典的方法。本文所作的主要工作如下:(1)通过研读大量文献资料,理清了词典的发展历史,理清了词典和其他知识的关系,包括语言学,认知科学,认知语言学以及词典演变过程中出现的一门相对独立的科学——词典学。(2)在以往的文献资料的基础上,对WordNet和FrameNet进行了更细致和深入的剖析。对同义词集和框架语义学进行了详细的阐述,并从中获得了启发,以Gruber题元角色理论、G.Miller同义词集理论、Charles J.Fillmore格理论和框架语义学理论为基础提出了自己的一套观点,建立基于WordNet和FrameNet的领域语义词典。(3)说明了领域词典中从知识库到词汇模块的数据组织方式。采用尾字哈希表-词长索引表-词条链表模式。给出了词典中词的具体存放方式,并且给出了具体的词汇单元块模型。(4)将设计的领域语义词典用于分词系统和场景搜索中,利用词汇单元本身记录的角色选择限制信息通过检测谓词论元的匹配问题来解决分词中最大的障碍——歧义问题。场景搜索通过相关算法匹配词汇的静态和动态属性,设定阈值,显示最终结果词汇
其他文献
计算机应用的普及带来了软件行业的极速发展,在利益的驱动下,软件盗版行为也随之猖獗。软件盗版严重损害了软件开发商的利益,打击其开发积极性;极大的危害了软件行业的健康发
粗糙集理论作为一种新型数学工具,已经被成功的应用到模式识别和图像处理等各个领域中。其中,粗糙集理论对处理模糊和不确定性知识的分析和处理能力显示出独特的优越性。论文
无线传感器网络是近年来研究和应用的热点,而数据存储又是其中的重点问题,数据存储的效果直接关系到网络的性能和安全。本论文对无线传感器网络中的数据存储进行研究,提出了
现有Web内容是无结构或半结构化的,因而机器不能理解其语义,故不能彼此交流Web信息,不能充分挖掘隐藏在信息中的知识。语义Web通过结构化的定义信息和描述资源,以求达到机器
随着计算机视觉技术的不断进步,图像质量的品质越来越受到人们的重视。如何能够有效地恢复降质图像一直以来都是研究学者们讨论的话题。其中,运动模糊图像复原问题一直是其中
随着互联网技术,尤其是网络搜索引擎技术的强大和快速发展,数字产品的非法传播越来越高速有效,因此,用于保护版权信息的数字水印技术面临着强大的挑战,得到了高度的关注和深
阴影在三维虚拟场景中扮演着重要的角色。首先,阴影可以帮助我们理解复杂接收体的几何信息;其次,阴影可以帮助我们理解三维空间中物体间的位置和大小关系;最后,阴影有助于我们
准确、高效和自动地识别人的身份是信息安全领域需要研究的重要问题,在此背景下衍生出如何准确的识别指纹信息与利用指纹信息对数据进行加密等问题,本文选择指纹识别中奇异点
随着软件系统复杂程度的增加,基于框架的分层式开发是目前企业级应用开发的主流。分层的实质是为了解决耦合问题,即降低对软件理解的复杂度问题。目前基于表示层、业务逻辑层
伴随着互联网的发展,网络技术也进行了一次革命,带来新的技术亮点包括:对等网络、分布式系统、网格、高密度存储等等。这些新的技术改变我们传统上网方式所提供的应用,其中视