论文部分内容阅读
有指导的统计机器学习方法大多使用单个人工标注数据训练模型参数。然而单个人工标注数据的规模和领域覆盖面通常很受限,且人工标注新的数据费时费力。本文以中文词性标注任务为例,研究利用多个遵守不同标注规范的人工标注语料(即多源异构数据),提高模型的分析准确率。本文的主要研究内容如下:(1)多资源转化方法多资源转化方法旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源和目标资源合并,增大训练数据规模。我们做了两方面创新尝试:1)在转化过程中额外利用指导特征的置信度信息,2)在转化后资源中用模糊标注表示方法减少错误标注。实验表明第一个策略能够帮助小幅度的提高词性标记的准确率,而第二个的影响不大。(2)耦合序列标注方法我们提出了耦合序列标注模型,直接学习和推断两种异构标记,更有效的利用异构标注的多源数据。其基本思想是将两个词性标记耦合在一起(例如:“[NN,n]”),利用词性映射函数形成耦合词性空间(Bundled tag space)。我们设计并尝试了多组词性映射函数,以模糊标注的方式,在非重叠且只有一端词性标记的两数据集上训练耦合条件随机场模型。实验表明耦合模型能显著提高词性标注和词性标记转化的准确率。(3)基于在线剪枝的快速耦合序列标注方法基于映射函数的耦合模型,能有效利用异构的多源数据,但同时也存在因耦合标记空间太大造成的低效问题。我们提出了一个上下文相关的在线剪枝策略,根据上下文信息更准确率的构建标记之间的映射关系。实验结果表明,这种方法能够解决耦合模型在完全映射下的效率低下问题,在不影响准确率的情况下,达到非耦合模型的效率。总之,本文研究了利用多个遵守不同标注规范的人工标注语料,来提高中文词性标注的准确率。本研究取得了一些初步的成果。我们期待这些研究成果可以进一步推动自然语言处理领域和其他上层应用如机器翻译、信息抽取的发展。