基于域自适应目标检测的机务段调车信号识别模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zhongming328
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频发的货运铁路运输事故造成了严重的经济损失和恶劣的社会影响,在平面调车作业过程的闯蓝灯驾驶行为是诱发该类事故的主要原因之一,而该行为大多数归咎于驾驶员对调车信号的通行状态的误判、漏判。利用计算机视觉实现机务段调车场景下的交通信号灯识别,能够克服由于疲劳导致的肉眼错误判断等弊端,将有效服务于国家人工智能战略需求,同时也推进轨道运输转型升级创新发展。基于深度学习的交通灯目标检测模型依赖于海量的相关场景标注数据集,直接用于机务段调车场景下信号识别会导致性能急剧下降,而进行大量人工手动标注耗费巨大。针对上述问题,本文基于域自适应目标检测方法对机务段调车信号识别展开了研究,主要内容如下:(1)开展深度学习、目标检测网络、域自适应技术以及协同训练等相关理论的研究工作。采用Cityscapes、Foggy Cityscapes、SIM10k、KITTI、Bosch等公开标注样本,真实场景的机务段交通灯未标注样本,作为训练与测试数据集。(2)提出了一种基于特征对齐的机务段调车信号跨域检测模型,用以减小乃至消除源域(公路交通灯数据集)和目标域(机务段交通灯数据集)的差异,并防止“负迁移”。在该模型中,设计并使用了图像级加权特征对齐、实例级连接特征对齐和加权梯度反转三种机制,其中加权梯度反转机制用以替代普通梯度反转层。在实际的机务段交通灯数据集实验中,所提模型取得了79.9%的检测精度,优于基线域自适应算法模型。(3)提出了一种基于混合域与协同训练的机务段调车信号跨域检测模型,以进一步提升模型的鲁棒性。由于传统的多步域自适应方法会忽略源域的作用,因此该模型提出混合域训练的方法来对其进行改善。同时,该模型采用协同训练为无标签的目标域数据提供更接近于真值的伪标签。在实际的机务段交通灯数据集实验中,所提模型取得了79.7%的检测精度;在其它公开数据集的实验结果,同样验证了所提模型的准确性和有效性。综上所述,本文提出的两种域自适应目标检测算法可以充分获取源域和目标域的域不变特征、有效减少域差异,从而显著提升机务段场景下信号灯识别模型的检测精度,为实际的铁路场景下的辅助驾驶和无人驾驶提供技术支撑。
其他文献
随着互联网和多媒体技术的快速发展,网络上每时每刻都在产生大量的、内容复杂的视觉数据。如何利用机器学习算法自动地从复杂数据中提取出有价值的信息,进而用于处理后期的分类或聚类任务,逐渐成为了近来热门的研究课题。由于真实世界中的视觉数据通常缺少标记信息,而传统的监督学习方法需要采用费时费力人工方式进行标注,因此在应用上受到限制。相比于监督方法,半监督方法可以使用少量的有标记样本和大量的无标记样本进行学习
学位
心率是一项人体重要的生理指标,心率指标的准确监测对健康医疗和疾病预防有着重要的研究意义和实用价值。其中非接触式的心率检测方法中的远程光电容积描记术(r PPG)技术以便捷、安全和低成本的优势成为目前研究的热点。但该项技术存在一些限制,如视频冗余信息、头部运动、光照强度变化以及其他生理信号的干扰。因此,为了克服上述限制,本文设计了新颖的端到端的神经网络,学习从面部视频信息到真实心率的映射关系。主要工
学位
随着人工智能的发展,计算机作为智能设备的基础,其对于各类模态所呈现信息的理解渐渐成为研究主流。图像与文本作为日常生活中常出现的模态,二者之间的蕴涵关系推理也成为推进人工智能对于现实社会理解的重要途径。目前以图像与文本作为主要输入模态的任务有视觉问答(Visual Question Answering,VQA)、图像描述生成、文本生成图像等。视觉蕴涵推理源于文本单模态的语义蕴涵推理(Textual
学位
随着人们对生活品质的要求日益提高,食品安全也成为大众的聚焦点之一。“假烟”、“假酒”等问题层出不穷,不仅危害了正规渠道商家的利益,更危害了人民群众的身体健康。因此,材料识别研究成为了一个重要的研究方向。而随着无线通信技术的发展更加成熟,WiFi的普及率涨幅也十分迅猛,它不仅体积小、价格低,还有极强的非侵入性,部署也十分简单。因此,使用WiFi设备实现材料识别研究也越来越深入人心。本文使用了WiFi
学位
蒙特卡罗程序在医学、核辐射物理和反应堆物理等领域有广泛的应用,但其三维几何模型的低效建模方式严重影响了该方法的应用效率,因此人们希望能够利用商业CAD软件来提升蒙特卡罗程序的几何模型建模效率。但与蒙特卡罗程序采用构造实体几何表示法(Constructive Solid Geometry,CSG)不同,商业CAD软件普遍采用的是边界表示法(Boundary Representation,BRep),
学位
唇语识别是一项将说话人嘴唇区域的运动解码为文本的任务。句子级别的唇语识别能够解决聋哑人群体与正常人沟通的障碍,还能够改善在嘈杂或无声环境下的语音识别。近年来,基于深度神经网络的唇语识别方法受到广泛关注,而且准确率已经远远超过了在唇读方面有经验的人类。然而,句子级别的唇语识别领域仍然存在许多具有挑战性的问题需要解决。本文的主要研究工作如下:(1)基于通道注意力机制与选择性特征融合模块,提出一种端到端
学位
随着智能移动设备越来越多的出现在我们的日常生活,物联网对计算资源的需求不断增加,计算资源受限成为物联网所面临的新挑战。移动边缘计算(Mobile Edge Computing,MEC)的兴起很好的解决了计算问题,但是结合了MEC技术的物联网仍然存在一些问题,比如固定部署的边缘服务器在处理任务时不够灵活、边缘服务器的成本昂贵等。于是无人机辅助移动边缘计算系统被提出,利用无人机的高机动性和灵活性,提供
学位
随着智能系统的快速发展,如无人驾驶车辆、服务机器人导航、监视系统等,行人轨迹预测成为一个极具挑战性的问题。如何在高度拥挤、混乱的环境中感知、理解和预测行人的运动模式以便防止将来的碰撞变得重中之重。行人的运动不仅仅受到自身因素的影响,同时还受到周围环境的影响。针对上述问题,本文的主要研究内容如下:1.行人之间的交互是复杂多变的:单独行走、相向握手以及成群结队等,这些社交活动都会影响行人接下来的轨迹。
学位
随着智能安防和视频监控领域的需求与日俱增,越来越多的视频监控设备被部署安装,从而导致监控视频数据量呈爆发式增长,为了对这些海量的监控视频数据进行智能分析,引入人工智能技术已成为必然趋势。其中,行人重识别技术作为智能分析的关键技术支撑,正受到广泛的关注和研究。行人重识别旨在解决跨镜头情景下行人跟踪与检索问题,它是利用计算机视觉技术判别在指定的图片或视频序列中是否具有指定行人的技术,在视频监控、智能零
学位
情感识别在诸多领域有着重要应用,如人机交互、辅助医疗等,一直以来都是工业界和学术界的重要研究内容。传统的情感识别,如面部情感识别,虽然被研究较多,但也在数据精度要求和隐私保护等方面有一定的缺陷。相比之下步态数据也蕴含情感信息,但对数据精度要求相对较低,且有助于保护隐私。利用步态信息进行情感识别的研究于近年来逐渐开始兴起,本文对基于步态的情感识别这一被研究相对较少的任务,对步态原始存储数据进行了不同
学位