【摘 要】
:
文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,
论文部分内容阅读
文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,文本长短不一的特点,对中文文本的识别任务依旧富有挑战性。随着深度学习的兴起,给计算机视觉领域带来了更多的解决方案。针对以上问题,本文将利用深度学习技术,结合中文文本的特性,进行对不定长中文文本图像的序列识别模型算法研究,主要研究内容如下:(1)利用中文词频的分布差异,提出了基于bigram混合标签的联合CTCAttention方法。此方法首先从中文文本数据集中统计高频二字子词,把它们加入到原始单字符标签中,构建bigram混合标签,缩短了编码和译码长度,有助于减少循环神经网络的长期依赖问题。在解码阶段,CTC模块输出一个初步结果,其中混淆的预测被替换为二字子词。利用CTC的帧间对齐能力和初步预测结果,引导Attention模块聚焦注意力范围,精确解码。在两个中文文本合成数据集、一个手写中文文本数据集、一个街景长文本数据集上做了测试。与现有的方法相比,此方法在不定长中文文本识别上精确度最高。(2)降低中文词频的影响,提出了基于降低词汇依赖的CTC-Attention监督训练方法。此方法通过构建乱序文本语料,合成大量文本图像用于训练,降低训练集的词频差异。同时通过多任务学习方式同时训练基于CTC的模型和基于Attention的模型,使用额外的KL散度损失用于互监督两者的训练,最终使模型更加关注于使用视觉特征进行解码,降低了对词汇的依赖。实验表明,此互监督训练策略对两个模型的识别能力都有不同程度的提升。(3)开发了一套文本识别系统,包含Web界面的功能演示端和可供编程调用的应用程序接口(Application Programming Interface,API)。Web界面便于用户可视化操作,上传文本行图像查看识别结果。同时提供的API可供远程调用,按规范发送请求报文就可得到包含识别结果的JSON文件,不限制开发语言。
其他文献
随着计算机视觉的不断进步,视觉伺服技术被引入机械臂控制领域,成为机械臂控制领域研究的核心内容之一。机械臂在工作过程中通过摄像机获得图像信息,使得操作系统更加灵活,因此,机械臂视觉伺服控制系统具有非常重要的研究价值。本文以六自由度机械臂视觉伺服系统这种结构复杂的多入多出系统为研究对象,针对视觉模型参数和摄像机内部参数未知的问题,以多入多出紧格式无模型自适应控制算法为基础,对机械臂视觉伺服系统进行了研
移动机器人作为帮助人类拓展认知范围的一类重要辅助工具,在人们的生产生活中占有越来越重要的地位。多面体机器人是一种由空间多环闭链连杆机构构成的多面体形态机构。针对地面移动机器人运动的高地形适应性需求,本论文对四面体移动机构面对台阶障碍的越障过程进行了分析,提出两种越障步态,并对其展开理论分析与样机实验。首先,对四面体移动机构支链进行构型设计,根据构型设计对其进行自由度分析,并提出基于对称驱动的滚动步
随着城市人口不断增加,公共交通压力与日俱增,传统公共交通方式已经制约了运输效率的提升。现代无轨列车是一种新型的城市交通运输工具,是对现有交通运输方式的补充,既具有公路汽车运行灵活、基建成本低的优点,又具有城轨列车载运量大、编组灵活的特点,是城市交通运输未来发展趋势。现代无轨列车的各节车体通过液压铰接机构连接,具备多轴转向的功能,可以提高车辆复杂工况下的运行灵活性。但是与单体客车、单铰接客车相比,多
在移动互联网时代,爆炸式增长的在线内容使得人们深受信息过载问题的困扰。作为缓解信息过载的利器,推荐系统能够从用户-项目历史交互中挖掘用户的个性化偏好,以过滤掉用户不感兴趣的内容。众所周知,传统推荐模型通常面临着数据稀疏和冷启动等问题,因而近年来越来越多的研究关注于融合社交网络等辅助信息来对用户兴趣进行充分建模,以改进现有推荐算法。然而,本文通过研究发现,现有社交推荐算法还存在以下问题:社交域对用户
为了帮助像考古学家、历史学家、网络审查员这类人从文档中快速查找感兴趣的内容,使用深度学习等技术对文档(如手写历史文档)进行快速、实时、精确的关键字定位是相关人员所迫切需求的,其在历史文献查阅、视觉搜索、图像检索领域具有广泛的应用价值。然而由于手写历史文档图像数据集标注困难且费时费力,使得训练数据严重缺乏不足以满足深度学习模型训练的需求。此外,手写历史文档图像具有多样的写作风格、多变的视觉外观、不均
目标检测技术是计算机视觉中的核心技术,被广泛应用在智能视频监控、自动驾驶、航空监测等领域。同时,随着遥感技术的不断成熟,可获取的遥感数据量急剧增加。因此,遥感图像目标检测技术逐渐成为研究热点,其指的是设计一个目标检测器,可以高效地识别出遥感图像中的感兴趣目标且对其进行定位。然而,此领域始终面临着许多严峻的难题。首先,由于图像涵盖的物体广泛且杂乱,造成了检测时复杂背景干扰的问题。然后,图像中的小目标
短句语义相似性判别作为自然语言处理的基础任务,对于下游的数据挖掘、信息检索、机器翻译等任务具有极其重要的作用。在目前基于匹配聚合框架的语义相似性模型中,序列对齐的过程中只考虑了单个特征空间的语义信息,并且对于全局信息的利用不够充分。另外,将序列转化为固定维度的向量的单步预测方式也会造成序列中重要信息的丢失。解决上述问题对于模型性能提升具有积极的作用。本文针对上述两方面的问题,提出基于混合全局信息的
近年来,作为一种能展现360度全方位视角的媒介,全景视频在监控、场景展示、赛事直播等领域展现了独特的魅力,逐步走进大众视野。全景视频具有视角广阔、高分辨率、高帧率、数据量大的特点,为存储和传输带来困难,因此亟需有效的全景视频编码方案。在全景视频编码过程中,投影方法与编码算法是最关键的两个要素。本文围绕全景视频的特性,提出了如下几种投影方法,以适配随后的全景视频编码:(1)提出近似均匀采样的少畸变双
随着互联网技术的高速发展,网络中的数据量呈指数式增长。在信息过载的情况下,用户难以及时、准确地发现感兴趣的商品。推荐系统通过分析用户与物品的相关特征,从而为用户过滤大量无关信息,推荐符合其偏好的商品。推荐系统的准确性常因两大问题受到限制,一是评分数量过少导致的数据稀疏问题,二是新物品或新用户加入导致的冷启动问题。本文主要针对这些问题对推荐系统进行研究,以提高推荐结果的准确性。本文立足于推荐系统中与
病理图像检查被誉为诊断癌症、预后和指导治疗的金标准,同时也是连接诊断和治疗的关键环节。它通过观察活体组织结构和细胞病变特征做出诊断,其结果相比其他诊断方法更加权威,是目前最主要也最可靠的癌症诊断方法。随着数字成像设备和病理切片制作技术的不断发展,病理医生可以借助先进的成像设备扫描活体组织样本,并通过计算机观察其生成的全切片图像。然而,全切片图像的分辨率极高,并且图像内容复杂,涵盖了百万数量形态多样