汉语词义消歧研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:majun913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是自然语言处理的核心问题,词义消歧结果的好坏直接影响到机器翻译、信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。本文主要研究基于统计的汉语词义消歧方法,先后研究了基于词义标注语料库的有指导的消歧方法和基于词义标注语料与未标语料相结合的半指导的消歧方法。 在有指导的消歧方法中改进了AdaBoost算法(双规则AdaBoost算法,即DR-AdaBoost),该算法在每次迭代中将最优弱分类规则和次优弱分类规则有机结合起来,通过加强最优弱规则与次优弱规则,最终产生一个准确度高的强规则,即消歧模型;当次优弱规则的权重为零时,即为AdaBoost算法。实验表明,DR-AdaBoost算法通过适当的次规则参数的调整,消歧准确率比AdaBoost算法提高了2.61%。 尽管有指导的消歧方法取得了较好的消歧结果,但其结果的好坏很大程度上受标注语料规模大小的影响,高质量、大规模的词义标注语料需要高昂的人工代价。为了克服有指导消歧方法对标注语料库的依赖性,本文在汉语词义消歧中引入Bootstrapping算法,该算法只从少量种子集出发,综合利用词义标注语料和未标注语料。实验表明,在相同手工标注语料规模的条件下,Bootstrapping算法比基本分类器贝叶斯分类器取得了更好的消歧准确率,Bootstrapping算法可以用大约一半的标注语料作为种子集,就可以达到基本分类器的学习效果,减少了有指导消歧方法中对大规模词义标注语料库的需求。 在Bootstrapping算法中,本文改进了最可信样本的选取策略。采用分组策略,即根据未标语料样本在特征空间的维数进行分组,然后选取组内概率超过某一阈值的样本作为最可信样本。实验表明基于分组策略Bootstrapping算法的消歧准确率比原始策略Bootstrapping算法的消歧准确率有较大提高;基于分组策略Bootstrapping算法的消歧准确率比基本分类器平均提高了3.5%。
其他文献
本文主要研究了群体智能优化算法中的粒子优化群算法在函数优化方面的应用与改进。粒子群算法是近几年发展起来的一种基于群体智能的优化算法,其源于对鸟群群体运动行为的研
随着3G时代的到来,用户对移动通信有了更高的期望,不仅要求有稳定的语音通信,而且还要求能够进行数据和多媒体的多种通信方式。针对这些需求,第三代合作伙伴计划(3GPP)标准小
随着我国城市公共交通快速发展,轨道交通作为城市交通中的重要组成部分,在城市繁忙的公共交通运输中越来越受到青睐。但目前,轨道交通自动售检票系统在计算机技术应用层面上
由于系统芯片中IP核数目的逐渐增大,片上通信结构逐渐成了整个SoC的性能瓶颈,基于共享总线的SoC通信结构具有无法克服的局限性,这就对传统的共享总线片上通信系统提出了严峻的挑
BOSS(Business Operation Supporting System)系统经过多年的发展,已经具备了基于CDR(Call Data Record)的准实时计费功能,但是基于CDR的计费方式必然存在一定的欠费风险,欠
软件复用被视为解决软件危机,提高软件生产效率和质量的现实可行的途径。随着构件技术和基于构件的软件开发的技术的发展使得构件库作为软件构件利用的物质仓库,如何在可复用的
随着计算机技术的发展和软件系统规模的扩大,现有软件系统往往积累了大量的行业知识,包括系统需求、业务规则和设计决策等,因此对软件系统的维护显得越来越重要。而对原有系统的
混凝土搅拌站已成为混凝土生产的主要场所,其称重配料环节作为混凝土生产过程中的关键环节,是影响混凝土质量的重要因素。同时,控制系统的性能,对搅拌站的正常运行有着非常重要的
移动计算环境代表着网络发展的必然趋势,该环境下的应用日益普及。查询处理是移动计算环境中最基本的一项技术,连接是查询处理中最常用、最费时间和空间的操作,也是引起网络通信
图像边缘检测是许多图像处理过程中的重要步骤之一。在虚拟手术系统中,对人体切片的边缘检测是关键的一个步骤,是下一步进行三维建模的基础。但是图像中边缘与噪声都分布在高频