【摘 要】
:
近些年实例分割任务越来越多的受到研究者们的关注与研究,但目前为止该任务依然没有达到令人满意的效果,其中大部分算法都无法达到实时性的要求,即使达到实时性的算法也很难具有较高的准确度。为了在工程中使用具有实时性的实例分割算法,本论文在YOLACT算法的基础上进行了相关改进,并在保证实时性的同时进一步提高算法准确度。然后在实例分割算法的基础上进一步研究了行人属性识别算法,并通过实例分割方法解决行人属性识
论文部分内容阅读
近些年实例分割任务越来越多的受到研究者们的关注与研究,但目前为止该任务依然没有达到令人满意的效果,其中大部分算法都无法达到实时性的要求,即使达到实时性的算法也很难具有较高的准确度。为了在工程中使用具有实时性的实例分割算法,本论文在YOLACT算法的基础上进行了相关改进,并在保证实时性的同时进一步提高算法准确度。然后在实例分割算法的基础上进一步研究了行人属性识别算法,并通过实例分割方法解决行人属性识别中背景对识别造成影响的问题。本文的主要研究内容和贡献如下。1、本论文针对YOLACT算法中无法正确区分重叠检框内的不同实例的问题进行了相应改进,并在保证实时性的同时进一步提高了算法的准确度。当两个实例的检测框产生部分重叠时,YOLACT算法仅仅预测各自检测框内的实例掩码图,并没有考虑检测框内可能包含了其他实例的问题,因此本论文提出抑制重叠检测框内其他实例的方法,该方法在一定程度上提高了掩码预测的准确度。另外为了提高YOLACT算法的检测识别性,本论文设计了一种多尺度通道注意力机制以及使用自底向上的特征融合方法,该注意力机制使用全局和局部信息共同表征特征图的重要性,自底向上的特征融合方法缩短了网络的传播路径,并且能将底层的位置信息传入高层。最后通过实验证明了上述方法在保证实时性的前提下,将网络的准确度提升至37.1%。2、针对复杂环境下行人属性识别中对背景的关注而导致识别准确度不高的问题,本论文采用实例分割方法来抑制背景对行人属性识别的影响。该方法使用改进后的YOLACT算法来提取行人掩码,然后对特征图进行裁剪处理。为了提高不同属性之间的关联性,本论文将不同卷积层输出的特征图进行拼接,把不同尺度的属性进行融合;行人属性识别中的多任务分类网络存在类别不平衡以及训练速度不同的问题,本论文使用梯度权重损失函数来改善此问题。3、本论文实现了车辆及行人视频结构化信息抽取及检索系统。车辆及行人视频结构化信息抽取及检索系统分为后端和前端部分,后端进行算法处理任务,前端进行显示交互等任务。后端部分包含了实例分割算法和车辆及行人识别算法。前端任务通过界面进行展示,增加了与用户之间的交互性。最后对输入图像进行相关测试展示了该系统的实用性。
其他文献
根据图像进行三维重建是计算机视觉领域热门的研究课题,被广泛运用于自动驾驶,机器人导航,虚拟现实,增强现实等应用之中。传统的三维重建方法通常依赖于特定的硬件设备或者多视角图像,这在实际运用中是容易受限的。同时,传统的三维重建方法多用点云表示重构的三维模型,这在数据存储和处理上是不方便的。而在实际的应用场景中,我们周围的环境通常具有明显的平面结构,比如地面,建筑物表面等等。因此,用平面结构来解析三维场
车辆路径规划是智能交通中的重要研究方向之一,其研究内容主要包括路网模型、交通信息预测和路径规划算法等。如何充分利用道路交通信息,动态且快速地为目标车辆提供一条合理高效的行车路线具有非常重要的意义。论文将深度强化学习融入路径规划算法,对车辆动态路径规划问题进行了研究。论文的主要工作如下:论文针对现有路径规划中对路况分析不全面的问题,构建了基于层次分析法的道路效率指标评价模型,综合分析各种影响道路通行
随着计算机网络的发展和不断流行,越来越多的网络应用和网络服务在Internet上运转。方便大众的同时,这也给网络攻击者可乘之机。用户对网络依赖性的加大,导致网络设备的大量增加,使得攻击者更为方便地控制足够多的僵尸主机在网络上发动攻击,所以当下面对的网络安全威胁更加棘手。其中比较棘手的攻击就是分布式拒绝攻击(DDoS),这种攻击的攻击形式多,危害大,并且难以识别和防御。由于SDN技术的不断发展,结合
随着三维传感技术的极速发展,已经有大量的三维模型出现。如何帮助用户高效使用已有的三维模型,已成为如今亟待解决的问题,三维模型检索方法随之诞生。一方面,现有的基于多视图的三维模型重建算法受LSTM网络时序性的影响,重建结果与输入二维图像的顺序息息相关。另一方面,目前的三维模型检索算法大多基于传统卷积神经网络进行研究的,但是传统的卷积神经网络具有平移不变性,且由于神经元为标量的缘故需要大量的数据进行训
近年来,随着信息通信技术的快速发展和信通网络的大规模部署,新兴网络应用大量涌现。信通网络各层协议和应用在正式部署于实际系统之前须经过严格的测试。因而,构建逼真度高、成本可控且灵活可扩展的测试网络对于网络研究具有重要意义。现代信通网络结构复杂、构建成本巨大,若所有测试网络均采用实际物理设备搭建,将耗费极大的人力和物力。为降低构建大规模测试网络的成本,提升测试网络灵活性和可扩展性,可采用虚拟节点构建测
随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分布总是符合上下文语境,导致生成的词语与前文不一致或不相关。二是解码算法没有对语言模型的偏差合理规避,使得不一致或不相关问题随长度增加而逐渐累积,最终偏离了原有质量。基于以
在获取数字图像时,图像被噪声污染是一个很难避免的问题。图像去噪是许多其他图像工作的基础,如图像分割,边缘提取,图像识别等,都需要首先经过图像去噪,去除干扰信息。图像去噪会很大程度上影响后续工作的效果,因此对图像进行去噪是非常必要的。近年来,因为深度学习的快速发展以及卷积神经网络(CNN)在图像识别等领域取得了很大的成功,人们开始尝试在图像去噪领域研究基于深度学习的方法。最近的研究中,在高斯白噪声领
随着日益复杂的电磁频谱环境带来的严峻的干扰问题,干扰处理技术越来越受到重视。机器学习作为当下的潮流之一,正带动着通信抗干扰技术向智能化方向发展。干扰识别是抗干扰的前提和基础,也是其关键技术之一。将机器学习算法应用到干扰识别技术中,可以使得干扰类型及其相关参数的识别更加准确高效。成功识别出干扰信号之后,利用链路自适应技术,根据不同的信道质量指标对发送功率、调制编码方案及信号波束方向等参数进行实时更改
随着网络技术的飞速发展,无处不在的移动设备和大量的新兴应用导致了移动数据流量的爆炸式增长。内容分发网络(Content Delivery Network,CDN)作为解决网络流量快速增长的重要手段,为了获得更低的延迟和更好的用户体验,不断将其缓存设备从中心网络下沉到边缘网络当中,我们称这样的内容分发网络叫做边缘缓存网络。新的场景带来新的问题,边缘缓存中,通常缓存设备搭载在基站上,这导致了缓存所能够
随着大数据时代的发展,各行各业都呈现出了数字化、信息化的趋势。由于医疗与民生的高度相关性,所以医疗大数据的发展也越发引人关注。然而医疗数据以其多种难以解决的特性往往会对信息化发展产生制约,这些特性包括不完整性、隐私性、多态性等。并且由于医疗数据是在实际的临床工作中获得的,病人往往会在得病之后才去就医,所以医院得到的各种病症的数据比例必然与对应病症的发病率相关,这会导致医疗数据出现不平衡的情况,从而