基于统计学习的统计词义识别方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:qq184343882
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何解决语言的歧义问题一直困扰着自然语言处理技术的研究人员。语言的歧义最重要的一个表现就是一词多义现象。如何根据歧义词出现的上下文语言环境识别出正确词义是词义识别要解决问题。在自然语言理解领域,词义识别是应用基础研究课题,也是自然语言理解的重点和难点之一。   早期的词义识别研究以基于规则的方法为主,近些年米随着计算技术和存储技术的改进和提高,统计学习方法越来越受到广泛的欢迎,迅速成为了主流的研究方法。有监督的学习方法应用于词义识别可以获得较高的识别精度,但是该类方法需要有规模足够大的训练样本,这样的样本不是容易获得。无监督的方法不需要人工标注训练样本,但是词义识别相对效果不是十分理想。   本文分析了统计词义识别研究需要解决的几个关键性问题。从词典资源和语料库资源的建设到词义识别问题的建模方法,以及词义分类问题的特征选择,对所涉及的问题都一进行了讨论。在这些基础上,本文最后给出了词义类扩展思想,并探讨了如何将其应用于统计词义识别的研究上。   本文研究成果和创新如下:   1.从词义的可计算性角度探讨词义刻画与词义识别的关系,探讨如何通过科学控制词义刻画粒度来重新整合现有的词典资源,建设新的机读词典,更好地为同义识别的应用服务。实验分析说明词义刻画粒度的大小直接影响了词义识别的精度,适当控制词义粒度再不产生二义性的前提下可以提高词义识别的精度。本文提出在词义再刻画的基础上整合现有词典资源,建设面向词义计算的新的分类词典;   2.在探讨而向词义识别的特征选择方法的基础上提出以信息增益改进贝叶斯模型的词义识别新方法。实验中以朴素贝叶斯模型、最大熵方法和支持向量机建立的词义分类器作为参照模型,讨论信息增益改进贝叶斯模型的效果。实验结果显示参照系中使用最大熵和支持向量机构建的词义分类器都比朴素贝叶斯模型强,其中基于支持向量机的词义分类器最好,而经过信息增益改进的贝叶斯模型在词义识别上表现更突出,实验结果比SVM还要高出1.4个百分点,获得了对比实验中最优的识别结果;   3.从语料库资源难于大规模建设的角度出发,实验分析和探讨了人造歧义词技术的使用问题,并在此基础卜提出替换词的概念,以及基于替换词技术的词义识别新方法。实验结果表明,人造歧义词技术可以帮助研究者缓解训练语料短缺的压力,源于此的替换词技术可以让研究者避开人工标注训练样本,实现一种无监督的词义识别方法。实验结果表明基于替换词技术的词义识别方法具有较高的识别精度;   4.针对词义识别训练语料规模不足够大的问题,提出了词义类扩展思想和基于词义类扩展的词义识别新方法。该方法通过词义类扩展,可以在有限训练语料中获得更多的词义信息,提高训练的效率,改善词义识别的效果,此外词义类扩展技术可以从无词义标注(无词义标记等先验知识)的生语料中统计相关词语信息,以此来为小规模的训练样本提供补充。实验结果表明基于词义类扩展思想的方法提高了训练语料的使用效率,改善了有监督词义识别的效果,这为增强小规模训练样本的统计学习效果提供一个崭新的思路。   综上所述,本文在资源建设、词义识别的建模、特征选择,以及如何突破训练语料规模的限制实现无监督词义识别和改善有监督的词义识别方法上都作了一些有益的尝试,取得了一些初步成果。随着词义识别研究的不断深入,会涌现出更多更好的新的解决思路和方案。
其他文献
舌像诊断是中医最具临床应用价值的方法之一,随着计算机技术的迅速发展,舌诊克服以往主观性、非量化等缺点,形成自动化与客观化的诊断方式逐渐成为可能。本文即是舌诊自动化
近年来,随着计算机网络、移动终端设备以及应用集成和信息集成能力的发展,面向移动终端的新型信息传播方式愈加显得重要。论文结合国家科技部全国科技信息服务网络对多源信息
目前,对于Web应用程序的开发已经出现了很多基于SOA架构模式的开发方法。面向服务的体系结构(SOA,Service Oriented Architecture)是一种新型的软件体系结构,它具有高重用性
近年来,国际上大规模干涉阵设备的不断建造与深入运行,为人类探测未知宇宙的奥秘提供了丰富的观测资料,但随之而来的密集型数据实时处理问题,对传统的数据处理方法及IT技术提出了
学位
本文以中国科学院云南天文台手绘太阳黑子图手写信息数字化方法及将其应用于一个数字化系统为基础,从理论和实验两个方面开展工作。具体内容如下:  (1)提出基于最小二乘的圆
虚拟现实和仿真技术的发展为森林生态系统的深层次研究注入了新的活力,虚拟森林场景的模拟仿真是利用可视化技术将描述树木生理结构和生长过程的复杂数据直观形象地呈现出来,
随着人们对机器视觉的研究,该领域已从静态视觉系统发展到主动视觉系统。主动视觉系统模拟人的视觉的主动性,可根据任务要求和已有的处理结果,决定对感兴趣目标注视的部位、
在Internet发展的初始阶段,网络资源比较稀少,信息资源的查找比较容易。随着互联网的迅猛发展,Web中所容纳的信息量呈现指数级增长。面对海量的网络信息资源,如何快速高效地完成
随着生物信息学的发展,人们研究集中在蛋白质和DNA等生物大分子。蛋白质分子在生物体内执行着各项重要任务,而蛋白质相互作用是维持细胞结构和功能的基础,因此对蛋白质相互作用