【摘 要】
:
文字是信息传播的重要载体,图像是文字的一种重要表现形式。在互联网智能化发展的大趋势下,图像文字识别任务扮演着重要的角色,具有重要的研究和应用价值。在识别任务中,与一般物体不同的是,文字具有其语言属性,主要体现在语义特征和文本字符的先验分布上。不均衡的文字语义分布和不均衡的字符频率分布都会给文字识别带来挑战。本文针对这两个问题,展开了如下研究:1)针对识别模型容易产生词库依赖性的问题,提出了视觉-语
论文部分内容阅读
文字是信息传播的重要载体,图像是文字的一种重要表现形式。在互联网智能化发展的大趋势下,图像文字识别任务扮演着重要的角色,具有重要的研究和应用价值。在识别任务中,与一般物体不同的是,文字具有其语言属性,主要体现在语义特征和文本字符的先验分布上。不均衡的文字语义分布和不均衡的字符频率分布都会给文字识别带来挑战。本文针对这两个问题,展开了如下研究:1)针对识别模型容易产生词库依赖性的问题,提出了视觉-语义特征解耦的文字识别模型。传统的基于注意力机制的识别模型存在视觉和语义特征的耦合问题,其语义特征只能从训练集包含的词库中学习得到,并且解码过程是单向的,导致语义的学习不够准确。本文将解码过程中用到的视觉和语义特征放在两个独立的分支上进行学习,针对语义分支还设计了一个自监督的词语纠错预训练任务,以获取更加广阔的语义先验知识。语义解码器得到的字符语义特征更加准确,一方面作为查询向量来计算字符特征对齐的注意力权重,另一方面丰富了字符特征的表示。整个模型可以进行端到端训练。在少样本少语料的训练设置下,识别表现尤为突出,很大程度上解决了词库依赖性问题。2)针对文本字符频率分布的不均衡问题,提出了一个多分支对抗学习模型,借助合成的均匀分布的单字图片,去改善字符分类器的学习,以使得模型在保持头部数据识别性能的同时,尽可能多地提高尾部数据的识别精度。其中的文本行学习分支负责处理文本行图片,字符学习分支负责识别单字图片,它们共享字符级别分类器,以达到均衡分布的字符数据促进分类器学习的目的。此外,还设计了一个对抗学习分支,去约束文本行视觉特征和字符视觉特征尽可能服从相同的特征分布,有利于分类器在文本行和字符学习分支之间的互动学习。本文作为第一个研究长尾分布下文字识别问题的工作,还提出了一个新的大规模、字符频率分布严重不均衡的中文文字识别数据集,并从字符不均衡分布的角度给出了新的评价指标。基于上述研究,本文提出的两个图像文字识别方法很大程度上缓解了文字的不均衡先验分布带来的一些识别问题。实验结果表明,这两个方法与当前主流的基准文字识别方法相比具有一定的创新性和先进性。
其他文献
在世界能源结构转型和“碳中和”“碳达峰”目标的背景指引下,中国新能源发电产业迎来了高速发展的新阶段,加快推进可再生能源发电已经逐渐成为共识。新能源发电指的是通过风能、太阳能等可再生能源转化为电能的发电形式,其基础能源是可再生能源,在能源转换的过程中对环境造成的影响较小。随着我国供给侧结构性改革的逐渐深化,清洁绿色的新能源发电逐渐变为我国电力产业的重点发展方向,因此,新能源发电拥有宽广的市场发展前景
随着虚拟现实(Virtual Reality,VR)技术的成熟化,沉浸式视频愈发受到大众的喜爱,为了保证用户的观看质量,视频传输过程将消耗大量的带宽资源以提供高清和低时延的视频内容。然而,当前无线网络的带宽资源有限,难以保证高码率视频的传输时间约束,与此同时,目前绝大部分VR终端视频源来自于云端,从云端获取视频内容则进一步增加了传输损耗。本文面向带宽资源有限及云端获取视频传输损耗大的情况,提出利用
目的:观察复方丹参滴丸治疗冠心病不稳定型心绞痛的临床疗效及其对患者血脂水平、心功能的影响。方法:将70例冠心病不稳定型心绞痛患者随机分为常规组和联合组,常规组予以西医常规治疗,联合组在西医常规治疗的基础上予以复方丹参滴丸治疗,共治疗2个疗程。比较2组治疗前后心功能、血脂水平,并比较2组临床疗效、不良反应。结果:联合组总有效率94.29%,高于常规组77.14%(P<0.05)。治疗前,2组左室射血
与传统基于密钥的安全协议相比,仅基于底层统计特性的物理层安全技术近年来受到了广泛关注。导频污染攻击作为一种危害较大的物理层主动窃听方式,攻击者通过发送与合法用户相同的导频干扰合法用户的导频训练阶段,从而使物理层安全面临新的挑战。现有导频污染攻击研究较少关注非正交多址接入(Non-orthogonal Multiple Access,NOMA)场景,大部分攻击检测方案需要修改导频结构,实用性较低,相
作为正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)的演进技术,基于交错正交幅度调制的滤波器组多载波(Filter Bank Multicarrier with Offset Quadrature Amplitude Modulation,OQAM/FBMC)技术通过在每个子载波上引入具有优秀时频聚焦特性的原型滤波器,从而产生低旁瓣
辅导员作为大学生思想政治教育的中坚力量,其职业化发展是高校辅导员队伍建设的重要方向。笔者从职业准入、岗位实践、职业出路三个维度分析了当前我国高校辅导员职业化发展面临的困境,并提出加强辅导员队伍建设、增强辅导员职业认同感,以及提高辅导员职业化水平三个方面探索高校辅导员职业化发展对策。
随着“双高计划”的提出,高职院校的人才培养工作面临着新的调整,相应地,高职院校辅导员的工作内容和职业能力也应该做出改变。鉴于此,针对广西壮族自治区高职院校辅导员教学现状,具体分析了“双高计划”对高职院校辅导员职业能力的要求,指出了现阶段高职院校辅导员职业能力提升应遵从的基本原则,从多个层面提出了“双高计划”视角下高职院校辅导员职业能力提升的有效措施。
随着高等教育课程思政建设的深入发展,专业思政作为一个新的课程思政模式也应运而生。由于专业思政的专业知识和思想政治教育跨界性,高职院校专业思政建设需要辅导员与专业教师协同工作,形成协同育人机制。依据《高等学校课程思政建设指导纲要》、三螺旋协同创新理论,构建了新时代高职院校辅导员、专业教师、课程团队三位一体的专业思政协同育人机制。只有这样,才能有效地开展高职教育专业思政育人实践。
自然场景中的文字读取一直是计算机视觉领域中的一个重要任务,它在现实生活中有着很多应用场景,比如图片检索,自动驾驶和视频理解等。近年来,得益于深度学习的广泛应用,场景文字检测领域取得了快速的发展。一些文字检测方法在多个公开场景文字数据集上取得了很好的效果。但是大部分现有的文字检测方法在处理极端长宽比的,尺度较大的文字行时都存在较大的困难,容易出现对文字区域定位不准确的现象。为了能够提升现有的文字检测
水声通信是构建空天海地一体化信息网络的纽带性技术,成为国际海洋科技竞争的战略制高点。因在有效利用频谱资源和对抗多径效应方面展现出的强大潜力,基于正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术的水声通信引领高速海洋无线通信的发展。其中,获知准确的信道状态信息对构建水声OFDM系统至关重要,其是发送端自适应调制编码和接收端精准信号检测