联机中文手写文本行实时识别算法研究

来源 :厦门理工学院 | 被引量 : 0次 | 上传用户:calidaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机手写文本行识别一直是许多科研与工程研究的热点课题。不同于英文文本手写识别任务,中文文本的字符类别更多,连笔字、相近字更难区分,且文档书写时普遍有较长的文本长度,这给识别精度与速度都带来巨大困难。随着各种深度学习方法的逐渐推进,近几年基于图像的文本行识别方法取得了一定进展,但这些方法往往需要尺寸更大的图像来保留更多细节特征。同时手写数据存在大量长文本行,这也导致整体的数据图像尺寸宽度更长。在联机中文手写文本行实时识别中,尺寸大的图像要花费更长时间识别,极易造成识别系统的卡顿,影响用户使用体验,用这种方法实现流畅的联机手写文本实时识别非常困难。本文对目前联机中文手写文本行实时识别在精度与速度上的不足进行优化改进,主要贡献与内容为:1.本文设计了两种文本行识别模型:一种是通用文本行识别模型CRNN-E128,主要对卷积神经网络进行设计并用于手写文本识别;另一种是基于图卷积的文本行识别模型CNN-GCN,该方法在基于图像的手写文本行识别上利用图卷积对时间步节点间进行图建模。同时本文设计了四种不同的基于图卷积的联机中文手写文本行识别模型,对比分析不同情况下的图卷积建模效果。在CASIA-OLHWDB和ICDAR-2013竞赛数据集上的实验表明,本文提出的CRNN-E128模型取得目前较高精度(CR值分别为97.35与94.49,AR值分别为96.43与93.45);CNN-GNN模型舍弃循环神经网络,避免循环神经网络中大量循环操作带来的耗时,模型在取得较好精度的前提下执行速度更快。2.本文提出一种局部特征图动态更新的方法用于联机手写中文文本行实时识别。根据新书写的笔画进行局部卷积和局部更新操作,从而得到当前时刻的新特征图。这样操作避免了大量重复计算、提高了识别速度,使识别更加流畅,从而实现书写流畅、不卡顿的实时识别。另外,本文提出的实时识别方法可以解决倒插笔的问题,并且在不损失任何精度的情况下大幅提高实时识别速度。值得注意的是,本文提出的实时识别方法在大幅提高实时识别速度的前提下,保持了原始识别精度,并解决了倒插笔问题。在CASIA-OLHWDB和ICDAR-2013竞赛数据集上的实验表明,与传统文本行实时识别方法相比,本文的实时识别速度成倍数级提高。在通用模型上的实时识别速度提高为4.08倍,在基于图卷积的模型上提升为7.31倍,让大尺寸文本图像可以流畅地实时识别。
其他文献
当前建筑采暖通风空调存在能源消耗大、节能减排效果不理想等问题,影响建筑整体绿色发展,为此,本文对建筑采暖通风空调节能减排效果评价模型进行研究,对节能减排效果评价指标集进行归一化处理,构建建筑采暖通风空调工程投影指标函数,计算建筑采暖通风空调工程总能效比,对节能减排效果等级划分及优序排列,构建一种全新的评价模型。将该评价模型应用于某大厦建筑采暖通风空调工程三种方案中,优选出一种最佳工程实施方案,并通
期刊
报纸
相较于传统建筑业二维CAD绘图的设计模式,BIM技术基于三维可视化的特性,在装配式建筑混凝土设计中优势明显。构件详图等二维图纸是装配式建筑设计阶段的主要交付物,但是,BIM技术在装配式建筑项目设计中应用尚浅,如何基于BIM模型实现构件详图的高效高质生成是推广装配式建筑采用BIM设计的关键环节。综合考虑装配式项目出图要求及特点,文章基于BIM软件对装配式图纸的图签图框自定义、排图布局自定义、图纸样式
期刊
数字媒体技术的出现,因其自身独特性、融合性、创新性、时代性的诸多特点引起了各国重视,而这种新兴技术在我国经济发展、文化融合、教育革新等多个领域的进步发展中起到了先导作用。文章以我国当下数字媒体技术的发展状况为切入点,深入分析其在各个领域中的运用以及影响,并就强化数字媒体技术应用效果的策略进行阐述。
期刊
目的 采用HPLC法测定复方牛胎肝提取物片中总氨基酸的含量。方法 采用Agilent Zorbax Eclipse AAA-C18色谱柱(150 mm×4.6 mm, 5μm),流动相A为pH7.8磷酸二氢钠溶液,流动相B为甲醇-乙腈-水(45:45:10),梯度洗脱,肌氨酸、脯氨酸的检测波长分别为338、262 nm,柱温40℃,流速2.0 mL·min-1。测定了国内3家企业共9批产品中的总氨
期刊
现代生活中交通事故频发,汽车盲区是影响驾驶员判断的重要因素,是导致交通事故的重要原因之一。汽车A柱是汽车前挡风玻璃与车门之间的支撑柱,是保证车体强度和驾驶员安全的重要结构。但同时也会对驾驶员的视野形成遮挡,影响驾驶员的判断,汽车A柱盲区的消除可以极大改善因盲区而导致的交通事故。因此本文提出了利用图像配准与头部姿态相结合的盲区显示算法,可以在不改变驾驶习惯的情况下实时显示对应的盲区。此算法需要大量数
学位
问题推进式教学能够促使学生在问题探究和解决过程中,逐步深入感知学科知识,锻炼知识探究、自主思考、逻辑思维等多种能力。基于语篇的问题推进式高中英语阅读教学可以通过创设导入型问题、主线型问题和输出型问题,引导学生在探究语篇主题意义的过程中,实现知识向能力、能力向素养的转化。
期刊
相貌是沟通身体与社会的桥梁之一,个体透过相貌所展现的坚持自律和自我控制对婚姻关系起锚定作用。相貌的这些效用如何影响婚姻质量是本文的关注点。通过对2017年中国社会心态调查的数据分析发现,相貌价值观是相貌影响婚姻质量的认知基础,关系流动性是相貌价值观影响婚姻质量的作用途径之一,主观社会阶层是相貌价值观、关系流动性对婚姻质量影响强度大小的调节因素。这些结论为相貌与婚姻质量的关系提供了社会心理学视角的解
期刊
数字时代到来与新冠肺炎疫情的冲击,加快了新时代我国现代会展业数字化转型的速度,也为我国现代会展业高质量发展提供了契机。本文通过梳理改革开放以来,我国现代会展业发展历程,深入探究了国内外大变革推动新时代我国现代会展业数字化转型的过程,提出了现代会展业数字化转型路径,最后提出构建政府-协会-企业-社会各方“四位一体”的现代会展业数字化转型协调机制和实施“四一”工程,加快现代会展业数字化转型、强化数字化
期刊
报纸