【摘 要】
:
近年来深度学习的广泛应用对自然场景下文本检测任务的发展提供了新的动力。为了进一步提升文本检测方法的性能,本文提出基于位置感知的特征选择文本检测网络和基于性能导向的多阶段特征文本检测网络,从特征利用的角度来提升文本检测的性能。在常用的自然场景数据集中,文中的方法可以实现目前最优的检测效果。文本检测方法中基于直接回归的文本检测方法因其简洁的网络结构和稳定的检测效果受到了广大科研工作者的关注。这类方法在
论文部分内容阅读
近年来深度学习的广泛应用对自然场景下文本检测任务的发展提供了新的动力。为了进一步提升文本检测方法的性能,本文提出基于位置感知的特征选择文本检测网络和基于性能导向的多阶段特征文本检测网络,从特征利用的角度来提升文本检测的性能。在常用的自然场景数据集中,文中的方法可以实现目前最优的检测效果。文本检测方法中基于直接回归的文本检测方法因其简洁的网络结构和稳定的检测效果受到了广大科研工作者的关注。这类方法在检测精度方面仍有所欠缺,特别是对长文本和大型本文的检测,难以准确预测文本边界。因此在需要精准文本检测结果的场景中,其实用价值受到了巨大的影响。为了解决这个问题,本文提出了一种新颖的基于位置敏感的特征选择网络。文章提出基于直接回归的文本检测方法之所以难以获取准确的文本边界,是因为其仅利用单一位置的特征直接预测一个完整的文本框。这种方法不仅限制特征的利用效率,同时没有考虑到文本框不同组件对特征不同的需求。文中提出的方法将多方向文本框进行拆解,利用单一位置的特征分别预测框组件,然后将准确预测的组件进行合并得到最终的检测框。该方法极大程度上提升了特征的利用率,同时因为考虑到不同组成成分对特征的不同需求,更准确的组成成分被预测,从而获得更加准确的文本预测框。随着硬件算力的提升和优化方法的进步,深层神经网络可以得到有效的训练。位于深度神经网络不同阶段的特征包含不同的特征信息。在文本检测任务中,文本目标的多样性使不同检测目标对特征的产生了不同的需求,因此如何合理利用网络不同阶段的特征成为提高文本检测任务性能的一个突破点。在现有的工作中,大部分工作通过先验知识实现了检测目标和不同阶段特征的匹配,使不同阶段的特征针对不同的检测目标进行训练。但通过先验知识实现特征与检测目标的配对是不可靠的,主要原因是难以构建先验信息来全面且准确表达特征和目标的适应性。针对这种情况,本文提出了基于性能导向的检测目标分配策略。在这个策略中可以根据检测目标在不同阶段特征中的表现,来判断其在各阶段特征上的适应性,然后根据获取的适应性指标来控制检测目标对每个阶段特征训练的影响。实验证明这种分配方式,可以很大程度上提升网络在文本检测任务上的性能表现。
其他文献
基于微谐振器的车用质量敏感型传感器具有小尺寸、高实时性、无试剂消耗等优点,适用于气体微粒、病毒、单个有机分子等检测领域。然而,传统谐振式微质量传感器易受共模干扰(温度、封装压力)而产生信号偏移和误差,难以应用于环境多变的车载工况。已有研究表明,借助模态局部化效应可以有效提升微质量传感器的灵敏度,并同时抑制环境干扰。不足之处在于,受微尺度效应、多物理场和几何非线性的影响,使得模态局域化微质量传感器的
在结构化道路环境中,自动驾驶车辆受周围多车交互的影响,预测其他车辆对于自身的决策规划和导航控制具有十分重要的意义。预测尽可能长时域的交通参与者的行为或轨迹是当前的研究热点和难点。本文提出一种基于动态交互地图和决策森林的多类型结构化道路环境中车辆目的地预测方法。该方法的特色在于以短时域意图及轨迹预测为基础,作为可解释的长时域目的地预测的有效依据,并在开源数据集上进行预测实验,验证提出方法的有效性。在
毛细管电泳(capillary electrophoresis,CE)是一类以毛细管为分离通道、以高压直流电场为驱动力的液相分离技术,它的主要优势有简单易操作、成本低、样品消耗量小等,是现如今食品和环境中进行物质分析的重要技术之一。但由于进样量少且检测的光程短,通常需要利用富集方法来提高检测的灵敏度以满足分析的要求。本文主要研究了CE技术在食品和水中药物残留检测中的应用,根据分析物特性选择了不同的
类硅烯和类锗烯作为类卡宾化合物的类似物,拥有与类卡宾相似的化学反应特性,是重要的有机中间体。制备环丙烷类化合物的其中一种有效可行的途径就是利用类硅烯、类锗烯和含不饱和化学键的物质发生加成反应。由于它们性质活泼,目前在温和的反应条件下,合成和分离仍有难度,对其反应的研究仍显欠缺,且反应机理缺少理论支持。本研究借助量子化学计算方法,对若干类硅烯、类锗烯与醛、酮、二烯等含双键物质的加成反应机理进行了理论
以图像作为输入,使用计算机自动生成有意义的文本描述,称为图像描述生成(Image Captioning)。因其位于计算机视觉和自然语言处理两大研究领域的交汇处,以及广泛的应用前景,吸引着越来越多的科研工作者致力于此。图像描述生成任务成为近年来的研究热点之一。场景图对图像中对象之间语义关系进行注释。通过生成图像的场景图,为图像描述生成模型引入对象之间关系的引导来增强区域级特征,有利于推理出正确的文本
重载卡车具有载货量大、运输成本低、动力强劲等优点,已经成为经济社会中不可或缺的一环。但是也正是由于重载卡车通常具有较大的载重,一旦在高速行驶时发生爆胎其行驶稳定性会受到严重影响,很难依靠驾驶员的应急反应成功脱险,从而造成严重的交通事故。研究爆胎车辆的稳定性控制具有很强的实际意义,本文提出一种爆胎车辆的主动控制系统,并对爆胎车辆的脱困方法进行了一系列研究。首先,鉴于爆胎实车实验的高危险性,建立Tru
停车位检测是自动泊车系统中的重要组成部分,其检测性能决定最终泊车效果。目前,空停车位检测主要使用基于视觉的方法,通过车辆装备的鱼眼相机拍摄图像,根据相关算法得到环视图像,实现基于环视图像的空停车位检测。但现有方法存在车位线及角点不清晰或出现遮挡时空停车位检测精度较低或无法检测的问题。并且有些方法步骤繁琐,需要进行车位标记推断匹配及对车位占用情况分类,检测速度不够快。针对上述问题,本文提出一种基于环
丝背细鳞鲀(Stephanolepis cirrhifer)隶属鲀形目(Tetraodontiformes)、单棘鲀科(Monacanthidae)、细鳞鲀属(Stephanolepis),是极具增养殖开发潜力的鱼种,研究其早期阶段发育及生长、摄食特性,既可填补该鱼种早期发育生物学理论空白,又可为人工繁育提供技术支撑。本文在人工培育条件下,采用显微观察以及实验生态学的方法,研究了丝背细鳞鲀的胚胎发
近年来,基于激光雷达的自动驾驶3D感知技术处于蓬勃发展阶段。随着深度学习、神经网络的快速发展,激光点云检测技术也进入了飞速发展阶段。在现有的激光点云目标检测算法中,车辆和骑行者检测准确率较高,行人检测准确率较低,且面向行人的研究算法较少。根据KITTI数据集公布的前沿算法,车辆激光点云检测的精度达到90%,而行人检测的精度只有45%左右。因此本文主要目的是研究预测效率更高的激光点云行人目标检测新方
海洋底栖纤毛虫是海洋微食物网的重要组成部分,栖息于沉积物表层或底内。由于沉积物中的纤毛虫难以辨认分离,底栖纤毛虫的物种多样性研究明显滞后于浮游类群。渤海海域的底栖纤毛虫物种多样性研究存在空白。本论文对渤海莱州湾三山岛近岸海域底栖纤毛虫的物种多样性进行了针对性研究。从2020年8月至2021年12月,共发现底栖纤毛虫40余种,累计分离并鉴定底栖纤毛虫22种,隶属于20属(伪角毛虫属Pseudoker