论文部分内容阅读
中文词法分析任务是中文信息处理中的一项基本任务,主要包括两大部分,分别是中文分词和中文词性标注。目前的主流模型虽然表现优秀,但是依然忽略了很多要素,像分词中的相邻词特征,词性标注中的字符特征等,导致不能完全解决中文切分歧义和词性兼类等问题。本论文的目的是针对中文分词和词性标注任务的特点,分别提出了在分词任务中加入相邻词特征的方法和在词性标注任务中融合字符特征的方法,并且提出了一种针对序列标注任务的新型编解码结构。首先,针对中文分词任务中相邻字符构成词的特点,尝试在简单的序列标注模型的基础上,使用基于窗口采样的方式得到相邻字符的特征表示,在表示学习层中通过注意力的方式将相邻字符特征融合到模型中。这样的方式不仅充分考虑到了文本的上下文信息,还考虑到了相邻字符之间的耦合关系,可以得到每个字符特征的更加完整的表示。同时针对序列标注问题根据原始输入和输出之间的严格对齐关系,受到编解码结构的启发,采用词和标签双嵌入的方式,在编码器中增加对候选标签的预测,在解码器中使用基于注意力机制的隐藏特征监督候选标签对结果的预测来关联原始输入和标签之间以及前后标签之间的关系,提高了模型的泛化能力。然后,在针对词性标注的任务中考虑到标注对象是词的特点,从构词法的角度提出了三种将构成词的字符特征融合到模型中的方式,通过实验的方式证明了使用类似于注意力机制的加权特征融合方式得到了最优的结果。最后和分词任务一样使用改进的编解码结构进行实验,取得了优于基线模型的结果,证明了该结构对词性标注任务的有效性。最后,本文针对中文分词和词性标注任务的特点提出了相应的特征丰富和模型结构改进,经过实验的方式证明了模型和方法的有效性。针对序列标注任务的共性,可以将改进的模型扩展应用在其它序列标注任务中。