论文部分内容阅读
依存关系指的是句子中词与词之间支配与被支配的关系,将这种关系以计算机可接受的方式表示出来就是一个有向的依存结构图。依存关系因其直观、容易理解和简洁的结构,使得依存句法分析成为目前句法分析领域中的重要的研究方向之一。传统的句法分析的首要任务是确定句子所包含的结构,其次是确定各部分之间的内在联系,而依存句法分析的主要目的就是通过分析句子中各词之间的依存关系来识别句子的句法结构。随着计算机技术的不断发展,大规模收集语料成为可能,一些主流的语言如英文已经建立起了规模很大的语料库,并用统计的方法让计算机来处理成为可能。但是就目前来说,收集完之后的语料库需要人工的对其词性和依存关系进行标注,这将耗费大量的人力、物力和财力。对于中文的依存语料库来说,目前已建成的汉语依存树库规模很小,而且由于没有统一的标注规范,使得各研究组织机构的语料库之间存在着很大的差异。课题考虑到中文依存语料库规模较小的不足之处,利用大量的未标记语料,设计并实现了一种基于改进的Tri-training算法的半监督学习方法,并取得了较好的性能。实验采用的语料全部来自于CoNLL-2009的中文评测数据,其中共有22276个语句,利用基于两种不同方法的句法分析器MSTParser和MaltParser训练得到三种类型的分类器模型来实现改进的Tri-training算法。最初的Tri-training算法的过程过于繁琐,且其迭代的过程十分耗时。本文改进了Tri-training算法的时间复杂度,并且使用三种算法对同一标记数据进行训练。本实验根据汉语词和词形相同的特征,改进了MSTParser和MaltParser训练过程特征向量的选取维数,同时增加了三阶的特征向量。实验结果表明,利用大量的未标记的句子对实验结果的提高作用明显,克服了因依存语料库不足所带来的问题。