面向不同错误类型的中文文本纠错方法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:daxian005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本纠错是实现语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,其应用前景十分广阔。如在搜索引擎中,对于用户输入的文本常存在错字、缺词、多词的情况,通过分析输入文本,可自动纠正文本错误并反馈用户,所得搜索结果将更符合用户的需求;在汉语教学系统中,自动化文本纠错技术实现对文本进行自动批改的基本功能;在手语识别系统中,可利用文本纠错技术对连续手语识别的文本结果进行规范;在语音识别领域,为了提高识别的准确率以及提升用户体验感,往往嵌入文本纠错技术进行辅助。除此之外,自动化文本纠错还广泛应用在智能问答、智能审稿、文本编辑系统中。可以见得,文本纠错技术在各领域各应用中普遍存在又不可或缺。现有的中文纠错方法多为基于机器翻译的方法,但仍存在处理精度不高、对常识性实体错误难以纠正等问题。本文以中文文本纠错任务为导向,针对不同类型的文本错误进行深入研究。主要贡献和创新在于:(1)对于一般性语法错误问题,如错字、乱序等,利用机器翻译的思想,在Transformer模型的基础上,提出了保留机制算法,并开放模型双向解码的接口,以此提升模型解码的精度;(2)针对上述Transformer翻译模型不能很好解决常识性实体错误的问题,设计了中文文本知识抽取模型,并提出加权余弦相似度匹配算法,通过构建融合上下文信息的知识库,实现轻量型、高精度的知识匹配,进而纠正文本常识性实体错误。具体工作如下:1.基于Transformer的中文文本语法纠错方法的研究。本文构建了Transformer翻译模型,开放Transformer双向解码的能力,使模型在解码时能利用下文信息。另一方面,在解码器端提出保留机制算法,改变原本模型对输入字符进行顺序解码的流程,使其在解码时可从输入文本复制无需修改的内容到输出接口,使无错误的文本能保持无误进行输出,达到提高解码精度的目的。2.融合上下文语义信息的知识库的开发。本文利用Glove模型和Compl Ex模型分别训练词向量和知识图谱嵌入,提取三元组所在文本的关键词信息,通过加权平均形成文本向量。进而将三元组对应的表示向量与文本向量拼接,共同构成知识库,为后续中文文本常识纠错的研究提供数据集。3.基于知识图谱的中文常识纠错方法研究。本文首先构建了CNN-Attention的深度学习模型,实现中文文本的三元组抽取;其次利用提出的新型余弦相似度算法,将从输入文本抽取的三元组与已构建好的融合了上下文信息的知识库进行相似度匹配;最后把匹配精度最高的三元组替换到输入文本的相应位置,输出完成纠正的正确文本。
其他文献
随着人才不断流入,竞争愈加激烈,企业经营权和所有权面临分离的背景下,员工稳定性弱、委托代理的矛盾成为企业急需解决的问题,创新人才激励方案、优化企业管理成为关键,股权激励应运而生。股权激励以授予员工股权的方式,搭建企业与员工经济、命运共同体,增强员工责任感与大局意识,缓解了企业与被激励员工的利益冲突,最大限度让员工参与到企业决策中来,以此稳定和激励员工,促进两者向好发展。股权激励在我国起于二十世纪九
学位
学位
在我们赖以生存的水体、空气以及土壤中,可能存在着各式各样的环境污染物质,它们间接或直接地破坏生态系统并危及动植物与人类的生存。发展准确、快速、高效的环境污染物检测方法是了解其在环境中存在形式及含量以便进一步处理的前提和基础。以生物识别分子与信号转换器相结合用于分析物检测的分析设备被称为生物传感器,其中,荧光生物传感器以荧光信号的变化反映识别分子与分析物间发生的结合或分离作用,具有信号传输迅速、准确
学位
学位
学位
中医理论体系本身是比较完备的,但是难以客观化标准化。导致中医很难与现代医学技术相结合。因此限制了中医诊疗的发展。为了进一步发展中医国学,国家极力开展关于中医理论与计算机技术相融合的工作。而中医舌诊直观稳定易于观察,并且临床应用价值较高,成为了一个重要的研究课题。在当前,由于人工智能技术发展很好,将其应用到中医舌诊使其自动化是当前研究的一个很流行的方向。而研究这个方向主要有两个方面,舌象分割和舌象分
在实际生活中存在很多多目标优化问题(MOPs),人们对它们的有着多方面的期望,例如经典的路径规划问题:问题的提出者希望可以得到一种路径方案,使得在确保可以到达目的地的同时,尽可能的达成路途最短,耗费时间最短,油耗最少等等目标。同时多目标问题中也有许多问题的环境与期望可能随着时间的推移产生变化,例如在路径规划问题中,不同时刻路况信息会产生变化,而在不同情况下决策者对各个目标的重视程度也会变化。本文称
在传统的多目标优化问题(Multiobjective Optimization Problems,MOPs)中,目标空间中一个真实的帕累托前沿(Pareto Front,PF)被决策空间中唯一一个帕累托最优解集(Pareto optimal Set,PS)所映射,当所映射的帕累托最优解集个数大于等于2个时,MOPs便被定义为多模多目标优化问题(Multi-modal Multi-objective