论文部分内容阅读
中文文本纠错是实现语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,其应用前景十分广阔。如在搜索引擎中,对于用户输入的文本常存在错字、缺词、多词的情况,通过分析输入文本,可自动纠正文本错误并反馈用户,所得搜索结果将更符合用户的需求;在汉语教学系统中,自动化文本纠错技术实现对文本进行自动批改的基本功能;在手语识别系统中,可利用文本纠错技术对连续手语识别的文本结果进行规范;在语音识别领域,为了提高识别的准确率以及提升用户体验感,往往嵌入文本纠错技术进行辅助。除此之外,自动化文本纠错还广泛应用在智能问答、智能审稿、文本编辑系统中。可以见得,文本纠错技术在各领域各应用中普遍存在又不可或缺。现有的中文纠错方法多为基于机器翻译的方法,但仍存在处理精度不高、对常识性实体错误难以纠正等问题。本文以中文文本纠错任务为导向,针对不同类型的文本错误进行深入研究。主要贡献和创新在于:(1)对于一般性语法错误问题,如错字、乱序等,利用机器翻译的思想,在Transformer模型的基础上,提出了保留机制算法,并开放模型双向解码的接口,以此提升模型解码的精度;(2)针对上述Transformer翻译模型不能很好解决常识性实体错误的问题,设计了中文文本知识抽取模型,并提出加权余弦相似度匹配算法,通过构建融合上下文信息的知识库,实现轻量型、高精度的知识匹配,进而纠正文本常识性实体错误。具体工作如下:1.基于Transformer的中文文本语法纠错方法的研究。本文构建了Transformer翻译模型,开放Transformer双向解码的能力,使模型在解码时能利用下文信息。另一方面,在解码器端提出保留机制算法,改变原本模型对输入字符进行顺序解码的流程,使其在解码时可从输入文本复制无需修改的内容到输出接口,使无错误的文本能保持无误进行输出,达到提高解码精度的目的。2.融合上下文语义信息的知识库的开发。本文利用Glove模型和Compl Ex模型分别训练词向量和知识图谱嵌入,提取三元组所在文本的关键词信息,通过加权平均形成文本向量。进而将三元组对应的表示向量与文本向量拼接,共同构成知识库,为后续中文文本常识纠错的研究提供数据集。3.基于知识图谱的中文常识纠错方法研究。本文首先构建了CNN-Attention的深度学习模型,实现中文文本的三元组抽取;其次利用提出的新型余弦相似度算法,将从输入文本抽取的三元组与已构建好的融合了上下文信息的知识库进行相似度匹配;最后把匹配精度最高的三元组替换到输入文本的相应位置,输出完成纠正的正确文本。