论文部分内容阅读
词义消歧是自然语言处理的核心问题,词义消歧结果的好坏直接影响到机器翻译、信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。本文主要研究基于统计的汉语词义消歧方法,先后研究了基于词义标注语料库的有指导的消歧方法和基于词义标注语料与未标语料相结合的半指导的消歧方法。
在有指导的消歧方法中改进了AdaBoost算法(双规则AdaBoost算法,即DR-AdaBoost),该算法在每次迭代中将最优弱分类规则和次优弱分类规则有机结合起来,通过加强最优弱规则与次优弱规则,最终产生一个准确度高的强规则,即消歧模型;当次优弱规则的权重为零时,即为AdaBoost算法。实验表明,DR-AdaBoost算法通过适当的次规则参数的调整,消歧准确率比AdaBoost算法提高了2.61%。
尽管有指导的消歧方法取得了较好的消歧结果,但其结果的好坏很大程度上受标注语料规模大小的影响,高质量、大规模的词义标注语料需要高昂的人工代价。为了克服有指导消歧方法对标注语料库的依赖性,本文在汉语词义消歧中引入Bootstrapping算法,该算法只从少量种子集出发,综合利用词义标注语料和未标注语料。实验表明,在相同手工标注语料规模的条件下,Bootstrapping算法比基本分类器贝叶斯分类器取得了更好的消歧准确率,Bootstrapping算法可以用大约一半的标注语料作为种子集,就可以达到基本分类器的学习效果,减少了有指导消歧方法中对大规模词义标注语料库的需求。
在Bootstrapping算法中,本文改进了最可信样本的选取策略。采用分组策略,即根据未标语料样本在特征空间的维数进行分组,然后选取组内概率超过某一阈值的样本作为最可信样本。实验表明基于分组策略Bootstrapping算法的消歧准确率比原始策略Bootstrapping算法的消歧准确率有较大提高;基于分组策略Bootstrapping算法的消歧准确率比基本分类器平均提高了3.5%。