基于多资源的同义词和下位词抽取及在人名消歧中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zy657592895zy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇语义关系是自然语言处理中至关重要的研究之一,词汇语义关系不仅是基础语义知识库构建的基本资源,而且在信息检索、机器翻译、情感分析等领域具有十分重要的作用。词汇语义关系是建立在语义范畴中词汇之间的逻辑关系,其主要关系包括同义关系和上下位关系,本文主要对同义关系和上下位关系中的同义词和下位词进行抽取。其中同义词主要是指在不考虑词汇的语气和词汇的感情色彩,一个或者多个能够表达相同或相近意义并且能够相互替换的词汇或者词组。下位词表示其语义包含在另一个词汇(称为上位词)内涵之中的词汇,即下位词是上位词的一个特殊实例。本文主要工作如下:1)本文从查找的角度对中文词汇语义关系中的同义词和下位词的抽取,提出了结合语义词典和网络资源等多资源的词汇语义关系抽取。其中同义词的抽取,首先根据中文语义词典的结构特点,按照Jaccard算法进行同义词的抽取,其次通过基于规则的方法从百科词条、有道翻译等网络资源中抽取同义词,最后根据词汇的自身特点进行复合结构的同义词抽取;对下位词的抽取,首先结合中文概念词典,其次在网络资源方面,一方面结合百度百科和维基百科的“开放分类”以及互动百科的“分类”等百科资源,另一方面结合百度相关搜索。通过对部分同义词和下位词进行抽取数据的分析,建立一系列同义词和下位词常见的噪音数据,对同义词和下位词进行噪音过滤,生成候选的同义词和下位词集合。2)在候选同义词和下位词集合基础上进行优化过滤。本文对同义词和下位词的优化过滤转化为文本分类问题,对于文本分类,特征的提取是首要任务,使用统计方法进行特征提取,分别将Jaccard系数、互信息、卡方检验、词汇对共现数量、词汇对间最小距离、词汇对间特征词个数等信息作为分类特征,然后使用支持向量机和最大熵模型对同义词和下位词进行优化过滤。实验表明,互信息、卡方检验、词汇对共现数量、词汇对间的最小距离、词汇对间的特征词个数等特征比单独使用Jaccard系数有更大的优势,对于同义词和下位词的抽取,支持向量机好于最大熵模型。3)本文介绍了同义关系和上下位关系在中文人名消歧方面的应用。根据人物信息抽取别名和人物身份,以及人物作品、学习单位、机构团体、专有名词、生活地点等特征,然后对别名和人物身份的权重进行加权,分别使用向量夹角余弦和词汇语义关系加权进行中文人名的消歧,实验结果表明同义关系和上下位关系能够更加有效的对中文人名进行消歧。
其他文献
基于视觉的导航系统是模式识别、人工智能领域的研究热点之一,主要应用于自主移动平台的导航,如机器人、智能车辆等。其中,道路环境的理解是导航系统的关键技术之一,它为导航
计算机技术的迅速发展已经使得计算机成为了人们生活中不可或缺的组成部分,但是计算机网络上的病毒传播也带给了人们巨大的损失。因此研究计算机病毒的传播机理,分析病毒传播的
目前,高等院校针对学生的管理工作开始多样化,但对学生在学习成绩上的关注始终没有减弱。为了学生让学生享受美好大学生活的同时,能更高标准的完成学业工作,关于评奖评优的促进工
随着计算机网络的迅猛发展,网络规模的迅速扩大,网络资源信息量也呈爆炸式的增长趋势,如何在海量的资源信息中快速定位人们所需资源,并有效的利用它们成为人们所关注的焦点。
随着网络技术的快速发展,XML数据正成为主流的数据形式,已逐渐成为互联网上数据交换和处理的标准,在各个领域都有广泛应用。但由于XML数据路径分支多、存在大量冗余信息,造成
随着科技不断发展,网络的规模不断扩大,网络的技术也在不断推陈出新,在这种环境下,利用模拟方法研究越来越受到研究人员的欢迎。NS2是现在最流行、用户最多的网络模拟器之一
人工智能研究的进展,伴随着新问题的产生,对应着新思路的出现,粒计算就是数据处理的新课题,得到了研究者的关注,成为了研究的热点,形成了人工智能的研究方向。对数据有目的分
随着社会对信息数据的巨大需求,遥感影像数据量呈爆炸式增长,同时,遥感应用对数据处理的巨量需求,推动了遥感影像处理技术的不断发展。高性能集群计算是实现海量高分辨率遥感卫星数据快速处理的重要技术之一,能有效缓解高分遥感应用的“瓶颈”。其中,任务调度模型是提升集群系统效率的关键。作者所参与研发的国家重大专项课题“高分辨率对地观测应用系统”中海量遥感影像共性产品生产系统,具有任务性质单一、子任务量轻、资源
图像拼接技术一直是图像处理、计算机视觉和计算机图形学的研究热点。它可以用来建立高分辨率,大视角的图像,在遥感技术、虚拟现实、医学图像处理、军事、摄影测量等领域中均
无线传感器网络因为其自由度大、节点数量多、网络布局复杂,但也因其应用广泛、前景宽广,使其成为现代网络技术中的研究热点。无线传感器网络定位是无线传感器网络领域中重要