【摘 要】
:
随着数字化进程的不断推进,无论是文本的数字化,还是视觉问答等以文本为基础的任务,都高度依赖可靠的文本检测方法。随着深度学习研究的不断深入,基于深度学习方法的效果早已远超传统方法,但在复杂场景下的检测效果依然难以令人满意。本文通过对文本检测模型的发展现状进行分析,认为Mask R-CNN系列模型具有良好的性能和发展前景,并且发现该系列模型中大多数是针对任务头的改进,而忽视了增强主干网络和neck提取
论文部分内容阅读
随着数字化进程的不断推进,无论是文本的数字化,还是视觉问答等以文本为基础的任务,都高度依赖可靠的文本检测方法。随着深度学习研究的不断深入,基于深度学习方法的效果早已远超传统方法,但在复杂场景下的检测效果依然难以令人满意。本文通过对文本检测模型的发展现状进行分析,认为Mask R-CNN系列模型具有良好的性能和发展前景,并且发现该系列模型中大多数是针对任务头的改进,而忽视了增强主干网络和neck提取和融合多尺度特征的能力。为了提升模型上述能力。首先,为了扩大主干网络特征的感受野,本文提出了Res Net P模块。区别于Res Net模块的降维、扩大感受野和升维操作,Res Net P模块由降维并扩大感受野、扩大感受野、融合多尺度特征和升维操作构成,可以在尽量保证模型效率的情况下扩大模型感受野。随后,为了解决主干网络随着深度增加,而出现性能提升小甚至降低的问题,本文提出了ResNetD模块,并重新计算主干网络各阶段感受野与文本检测模型相适应。接下来,本文为了进一步提升主干网络性能,本文测试了当前主流注意力机制的效果,并对性能最好的CBAM进行进一步改进,得到了效果更好的SCAM模块。最后,为了提升neck融合后特征的质量,本文提出了GFPN网络。该网络以特征金字塔网络为基础,通过添加去除冗余特征模块来过滤与下层无关的特征,通过迭代思想和自处理操作来保证多尺度特征的充分融合,三者共同来提高neck融合后特征的质量。在数据集MITW、ICDAR2019-Ar T上的实验结果表明,Res Net P、ResNetD、SCAM和GFPN具有优越的性能,其中Res Net P和GFPN还具有较高的效率,Res Net P和ResNetD普遍适用于Res Net系列网络。除此之外,为了更好的可解释性,本文还通过特征和结果的可视化,更加直观的展示了Res Net P和GFPN给文本模型带来的积极影响。
其他文献
科研合作能够促进学术领域的发展,随着数据科学领域的发展,许多高质量、大体积、高信息量的学术数据也变得容易获得,如何有效利用这些信息从海量数据中挖掘发现有价值的合作者是一个值得研究的重要问题。现有的合作者推荐工作,大都是通过构建同构或者异构的网络,通过使用网络表示学习的方法对节点的向量表示进行提取,然后对某个目标节点进行Top N推荐,或者是对于目标节点集进行匹配,以达到某个特定的最大收益目标。这些
随着我国经济、科技的进步以及电商、制造业等行业的发展,货运行业也进入了蓬勃的发展阶段,运输信息化也成为了货运行业发展的重要趋势。由于货运信息化起步时间较短却发展迅速,行业内的货运平台对于货车与司机的合规合法和服务规范缺少严格监管,货主与货车司机的信任关系也很难建立,因此有必要设计和实现一个建立司机诚信评价体系的货运管理系统,履行平台监管责任,建立货主对货车司机的信任。本文对货车司机在货物运输过程中
胃癌远处转移后预后较差,生存期明显缩短。现报道1例胃癌多发肝转移,癌胚抗原(CEA)高达275.0ng/mL晚期患者的诊疗过程,三线采用甲磺酸阿帕替尼联合伊立替康治疗后无进展生存期(PFS)长达7月余,为晚期胃癌提供可选择的新方案。
在全面推进信息化教育的背景下,利用课堂录播技术实现优质教学资源快速分享的需求逐年增加。传统的课堂视频录播系统采用手工录制的方式,过程中不仅需要专业人员全程操纵,而且存在影响课堂教学秩序和拍摄品质不稳定的问题。尽管一些自动录像设备已经引入到课堂视频录制过程中,但其对复杂多变的教室环境适应能力不足,实际效果并不理想,所以仍然需要视频制作人员对课堂视频进行从头到尾的剪辑再制作,导致了制作周期变长,也造成
航空装备研发一直是我国重点发展对象,随着科学家们不断的深入研究,我国已跻身世界航空强国之列。航空装备的飞速发展,累积了许多质量问题。目前,对这类数据的智能分析仍处于空白阶段。为了使研究人员快速了解质量问题的发展趋势以及挖掘当前质量问题的潜在信息,需要借助一个数据分析平台,帮助研究人员对当前的装备质量问题进行智能化分析并预测可能会发生的质量问题。本文所介绍的系统是受我国某研究所委托,对该研究所现存的
水下爬壁机器人是一种在危险环境下代替人工作业的自动化机器人。自上世纪末,各个国家开始广泛关注爬壁机器人这一领域,对于爬壁机器人的研究从未停止。但目前,仍然存在转向灵活性与吸附稳定性不可兼得的问题。本文以船舶表面除污作业为研究背景,设计了可在船体表面自由移动、灵活转向的清污除垢特种水下船体除污机器人,完成了其结构方案设计以及控制系统的研究。本文首先介绍了水下船体除污机器人的研究背景,并对爬壁机器人的
聚类分析是数据挖掘中基本且重要的分析工具,其目标是在缺乏先验知识的条件下探索数据分簇模式,被广泛应用于图像处理、生物信息等领域。受数据维度较高、结构复杂、质量不等的影响,现有聚类算法难以学习鲁棒的面向聚类任务的特征。因此,本文致力于解决现有聚类算法中存在的上述问题,研究两种基于鲁棒特征的深度聚类方法,改善深度聚类特征的鲁棒性,最终提升聚类结果。本文研究内容如下:(1)针对数据扭曲、蕴含噪声的问题,
随着生物医学领域的跨越式发展,每天都会有海量有关生物医学的论文或者期刊被发布。对于生物医学研究者而言,每个人的研究方向不尽相同,如果通过个人在有关的生物医学期刊网站上逐个搜索自己研究领域的文献既费时又费力,而且效率往往还较低,因此如何让生物医学研究人员快速找到所属领域的权威论文以节约研究人员的时间和精力就成为了一件十分重要且具有意义的工作。针对目前生物医学文献的数据不足的问题,本文提出了运用小样本
近几年来,深度学习已逐渐成为学习高质量图像表示的一种有效方式,并在通用视觉识别方面取得了显著突破。然而长尾数据分布的特点限制了基于深度神经网络的识别模型在实际应用中的实用性,因为训练得到的模型很容易偏向于优势类并且在尾部类上的识别性能表现欠佳。因此在长尾数据集上构建表现优异的分类模型是视觉识别领域中非常具有挑战性的一个热点课题。为了解决长尾数据识别问题,本文将针对长尾分布数据的学习过程分为分类器学
近年来,随着物联网技术的成熟和智能网联汽车的推广,车联网技术也在不断发展和完善,以车联网技术为支撑的车载应用也逐渐变得普及。车联网广义理解就是做到车辆终端和道路上的各类车辆和设施进行通信交互。但是真正的车联网是借助传统或新型通信技术打造的一套生态闭环,不仅要实现V2X,即车内通讯、车与外部通讯、车与服务平台、车与云端管理机构的通讯,还要包含硬件(车载OBU芯片、安全芯片等)、软件(车机系统、安全应