基于机器学习的中文拼写纠错技术的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:zjzhanjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和时代的发展,电子文档逐渐替代纸质文档成为汉字的重要存储方式。文字的录入方式也随着存储介质的变化,从传统的手写转变为键盘输入、图片识别、语音识别等更为高效的录入方式,但是这些技术不可避免的出现文字录入错误。在当今互联网时代,信息传递更为便捷,所存储的数据也越发庞大,这就使得人工纠正错误数据需要花费很多的时间和人力资源。中文拼写纠错技术的研究,不仅可以应用于拼音输入法、文档编辑工具、搜索引擎、聊天机器人、语音助手等,还可以辅助国内外汉语学习者学习汉语,提高学习效率,减轻学习压力。然而现有的中文拼写纠错技术具有字向量的上下文信息不充分、生成的候选字受限于混淆集等问题,这就迫切需要新的中文拼写纠错技术对数据进行自动检测和纠错,来提高文本的纠错性能。因此,本文在前人的基础上,分别对基于统计语言模型的中文拼写纠错技术和基于深度学习模型的拼写纠错技术展开研究,其主要贡献如下:(1)针对基于统计语言模型的中文拼写纠错技术性能较差这一问题,本文设计并实现了联合中文分词、音字转换词典和噪声信道模型的拼写纠错模型NCM-Spell。NCM-Spell的拼写检错模块联合中文分词和音字转换词典进行拼写检错,避免穷举候选句子,提高了模型的检错性能;NCM-Spell的拼写纠错模块使用噪声信道模型和Beam Search算法筛选候选句子,提高了模型的纠错性能。实验表明,与基准模型LMC相比,NCM-Spell模型在多个指标上有所提升。在SIGHAN 2013数据集上,NCM-Spell模型的拼写检错和纠错F1值比LMC模型分别提高了1.1%和3.3%;在SIGHAN 2015数据集上,NCM-Spell模型的拼写检错和纠错F1值比LMC模型分别提高了2%和2.9%。(2)针对序列标注模型输入字向量的上下文信息不充分和统计语言模型及深度学习模型的纠错性能受限于混淆集这些问题,本文设计并实现了基于预训练的上下文向量和多标签序列标注的拼写纠错模型MLSL-Spell。MLSL-Spell模型的拼写检错模块,为了使输入的字向量具有上下文信息,采用通过Transformer的编码器在海量语料库和多个预训练任务中训练产生的上下文向量,然后将上下文向量和拼音向量融合在一起,输入到由双向GRU神经网络和CRF模型构成的序列标注模型,对错误字类型进行明确的标注;MLSL-Spell的拼写纠错模块使用Masked Language Model(MLM)模型推断出错误位置的候选字,再根据错误类型筛选候选字。由于MLM模型是在所有的汉字范围内生成候选字,模型的纠错性能不再受到混淆集的限制。在获得了最终的候选字之后,提取候选字及其所在句子中的特征信息,并用XGBoost分类器筛选出正确字。实验表明,与基准模型PN相比,MLSL-Spell模型有较显著的提升。在SIGHAN2013数据集上,MLSL-Spell模型的拼写检错和纠错F1值比PN模型分别提高了18.3%和10.9%;在SIGHAN 2015数据集上,MLSL-Spell模型的拼写检错和纠错F1值比PN模型分别提高了15.7%和6.8%。
其他文献
殡葬从业人员常见的职业危害因素,包括生物性因素、化学性因素、物理性因素、生理及心理因素。文章对新时期殡葬从业人员的职业危害及防护对策进行综述,总结上述危害因素和提出相应的防护策略,在殡葬从业人员中开展职业安全防护教育,以提高殡葬从业人员预防职业暴露的操作技能和自我防护意识,加强对易发生职业暴露危险因素的防护,降低殡葬从业人员工作感染率。
离散空间矢量调制模型预测电流控制(DSVM-MPCC)方法具有动态响应快、易于实施、包含非线性约束条件等优势,逐渐被应用在永磁同步电动机(PMSM)控制中。然而,传统的DSVM-MPCC在电压矢量选取时存在计算量大的缺点,针对此问题,提出了基于有效电压矢量预选的方法来减小电压矢量选取时的计算量。其次,DSVM-MPCC易受电机模型参数不确定的影响,针对此问题,提出了基于递归最小二乘法的离散空间矢量
细胞分选是生物医学研究中样品制备的关键技术。不管是癌症诊断,还是单细胞分析,都需要从大量细胞背景情况下分离出目标样本细胞。而分选得到的目标样本是为了后续的下游检测分析,从而实现疾病的诊断。与现阶段临床上应用的传统大体积细胞分选技术相比,基于微流控的细胞分选技术能够在微尺度上精确地操纵液体或细胞的位移,由于器件尺寸小、成本低、样品消耗少、操作精度高,在现场即时医疗检测(POCT,Point-of-c
状态估计在目标跟踪、参数辨识、智能驾驶、通信导航等领域越来越受到重视。主要方法有:线性型卡尔曼滤波,非线性型扩展卡尔曼滤波、无迹卡尔曼滤波和强跟踪滤波,非高斯型粒子滤波等。针对上述方法在面对强非线性系统时所遇到的瓶颈问题,近几年发展起来的特征函数滤波,在面对强非线性测量系统的状态估计问题中,取得了令人满意的效果。但面对实际系统常存在状态模型和测量模型都是强非线性的状况,现有方法还缺乏更好的解决途径
随着人们对钢结构建筑的审美要求越来越高,其钢结构节点的形状也越来越趋于复杂,异形网壳钢结构焊接节点就是其中一种。这种钢节点构型复杂、位姿不一,工装定位难度大,且目前加工方式多为人工装配焊接,存在精度低、效率低和更换工装多等问题,节点质量一致性较差,常造成工程中节点与钢梁组装失位。为此,本文以一类六角牛腿式网壳钢结构焊接节点为研究对象,为其设计一套自动化柔性夹具,并结合焊接机器人应用技术,集成一套钢
图像去模糊的研究成为图像处理领域的热门研究方向。在现实生活中模糊图像的模糊核往往是非均匀的,在深度学习领域想要实现非均匀模糊复原需要接收域完全覆盖每块需要去模糊的区域,而现有网络通过不断地堆积普通的卷积和增大卷积核大小来增大接收域。这些方法不可避免地带来了昂贵地计算成本,且这些网络模型的复原结果往往会存在棋盘伪影现象、纹理信息失真情况和缺乏泛化能力等等。为了在实现非均匀模糊复原的同时解决上述问题,
冷轧过程中工作辊的热辊型是影响板带质量的一个关键因素,由于工作辊所处的环境十分复杂,热边界条件难以确定,所以对于工作辊温度场的精确预测一直是热辊型研究中的薄弱环节。因此在冷轧过程中对各个区域的热量传递进行准确计算,并建立相应的有限元模型,对热辊型的预测控制具有很重要的价值。在轧制时的主要热源为板带的变形热和轧制界面的摩擦热,本文根据冷轧的特点建立了板带的变形功模型,并计算了板带产生的变形热;利用预
随着社会经济的发展和居民生活水平的提高,人们对鲜奶的需求量日益增多,如何将鲜奶产品又快又好的配送到零售商和消费者手里,是个值得关注的问题。目前鲜奶的冷链配送存在成本高、效率低、车辆利用率低等问题,为了提高鲜奶配送效率和服务质量,本文将共同配送的理念引入冷链鲜奶的配送体系中,而共同配送中一个关键的问题,是联盟企业间如何合理进行利益分配和成本分摊,这关系到企业的利益和联盟的稳定性,本文主要围绕城市鲜奶
电流传感器是一种将被测电流信号变换为电信号输出的测量仪器,在航天航空、医疗卫生、工业控制等领域具有广泛的应用。随着在国家战略布局和政策推动下,风力和光伏发电、新型现代化电网、新能源汽车等产业井喷式发展,对电流传感技术要求也提出了更高的要求,尤其是在大量程、高精度、高线性度的电流检测技术上的研究便有了十分重要的意义。本文首先对电流传感器不同技术的研究现状及发展趋势进行了阐述,并对磁通门式、霍尔式以及
随着当前市场上海产品需求量的增加,研究利用机器视觉算法识别水下图像中的海洋生物成为未来海产品捕捞的技术趋势。本文选择海胆、海参、扇贝和海星作为水下图像目标识别算法实验的对象,研究图像中海胆、海参、扇贝和海星多类别识别的相关问题。受限于复杂的水下环境,水下图像不仅含有大量分布无规律的小尺寸目标,还会受噪声、缺少照明、摄像头抖动等多方面问题的影响,导致水下图像存在噪声大、偏色失真、纹理信息缺失等缺点,