基于深度学习的目标重识别算法及应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:lanaya0903
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过半个多世纪的发展,机器人技术已经对人类的生产和生活方式产生了深远影响,并成为衡量一个国家科技创新和高端制造业水平的重要标志。新的社会发展趋势表明:未来新一代机器人系统将从更多的方面模仿人,尤其是,机器人与人之间应更多地表现出一种和谐共存、优势互补的合作伙伴关系,即:与人共融是新一代机器人系统的最本质特征。为了实现机器人与人共融,需要机器人能够感知交互者身份,进而与人自然交互。因此,机器人准确感知交互者身份,是实现共融机器人的第一步,同时也是实现人机协同作业的关键。人脸识别和声纹识别方法常用于对交互者身份进行感知,由于人脸识别在采集人脸特征的过程中容易受到面部遮挡物和表情变化的影响,而声纹识别也容易受环境噪声、被识别人身体健康状况等因素干扰,所以在交互者身份感知的过程中上述两种方法均存在一定的缺陷。相对于上述两种识别方法,重识别算法可以提取目标整体表观特征,不需要交互者主动配合,并且受遮挡和环境噪声等因素干扰影响较小,因此被广泛应用于身份感知。然而现有的重识别算法仍存在网络层数较深、运行速度不满足实时场景、识别流程效率低下和特征匹配耗时严重等问题。为了解决上述问题,本文将目标检测算法与重识别算法相结合,将二者视为目标重识别的整体过程,在深度学习的理论框架下,进一步开展基于深度学习的实时目标重识别算法研究,并采用所提算法设计了机器人身份感知系统。本文详细阐述了目标检测和目标重识别的发展背景和国内外现状,系统的分析了实现实时的目标重识别存在的技术难点和问题,在深入研究不同类型的目标检测算法和重识别算法,分析其技术特点之后,基于深度学习理论改进了现有的目标检测算法和重识别算法以实现端到端的身份感知,并基于连续帧位置约束降低特征匹配复杂度,以满足实时交互场景的需求。主要的研究内容和创新性成果如下:(1)针对现有的目标检测算法由于网络层数较深而导致运行速度过慢的问题,本文在浅层残差网络Resnet34的基础上对网络结构进行改进,通过减少网络层数提高检测效率,同时引入深度聚合结构以保证检测精度不会因为网络层数的减少而降低。最后基于公开数据集MS COCO的实验,充分验证了所提方法的有效性。(2)为了进一步提高目标检测和重识别过程的计算效率,本文提出一种特征复用方法。由于检测和重识别都需要对同一目标进行特征提取,所以两次特征提取的结果中存在相同信息,因此本文通过特征裁剪方法对目标检测特征进行裁剪,从而使后续重识别算法能复用目标检测特征,以减少重识别算法本身特征提取网络的层数,提高计算效率。基于公开数据集CUHK03的实验结果表明,所提方法大大缩短了目标检测和重识别过程的计算时间。(3)针对重识别特征匹配耗时严重的问题,本文提出一种利用连续帧位置约束降低特征匹配复杂度的方法。该方法将上一帧所有带重识别结果的候选框作为备选身份集合,舍弃与当前帧检测框不重叠的元素,将剩余的集合中所有身份对应的特征和当前帧检测框提取出的重识别特征进行匹配,以相似度最高的身份作为重识别结果。改进后的匹配过程能够有效提高特征匹配速度,同时过滤掉一定的误识别结果,以保证识别精度。(4)基于移动机器人CLBROBOT采用本文所提算法设计了机器人身份感知系统。在系统设计过程中,采用二元双端队列解决图像传输效率低下的问题。最后,对机器人进行了身份感知实验,实验结果显示设计的机器人身份感知系统能够满足实时交互场景的需求。
其他文献
韩国电影在商业领域和艺术审美上别具一格,受到世界的广泛关注,在世界影坛中拥有极高的影响力与号召力。韩国电影中的中国人形象,是一种有别于韩国人自身的“他国”形象,从韩国电影中的中国人形象上我们可以窥见中国人在韩国生存的境遇与状况,从而对自我有一个明晰的认识;银幕中的中国人形象也是一面镜子,一定程度上反映了韩国对中国人的基本认知,以及韩国自身的文化心理。本文的研究对象为韩国电影中的中国人形象,通过分析
学位
行为识别是指在视频序列中识别人体的行为动作。该技术在智能监控、人机交互、视频检索以及异常行为检测等领域有着广泛的应用场景,因而受到业界的关注。本文将利用卷积神经网络强大的层次化表征能力,研究人体姿态估计和行为识别算法,重点关注基于人体骨骼模型的行为识别任务。本文的主要研究内容如下:(1)改进OpenPose实现高效的多人人体姿态估计深入研究OpenPose人体姿态估计算法原理。针对人体关节点易受遮
学位
我国地域辽阔人口众多,存在医疗资源配置不平衡现状,同时肠胃病患者高达1.2亿,且患病率呈逐年上升趋势,而消化内镜医师仅占全国注册医师的1.06%,难以满足众多患者的需求。故提出远程内镜诊疗技术有望解决这一难题,但该技术仍存在一些临床问题,主要包括远程内镜操控无力感、远程视频传输延时大和远程解决方案不成熟等。为了解决上述问题,本文在国家科技部的资助下,基于实验室研制的软式内镜操控机器人YunSRob
学位
制造业是一个国家的基础。制造业直接体现了一个国家的生产力水平,是区别发展中国家和发达国家的重要因素。在我国制造业的发展过程中,市场需求与生产模式均发生了很大变化,同时随着科技的飞速进步,特别是计算机技术与人工智能、大数据等技术的快速发展,相对传统的制造业正面临着巨大的挑战与机遇。工业4.0时代下,中国制造业亟需进行产业转型与升级,以面对要求越来越高、需求越来越波动的市场环境。赛汝生产即是一种新型的
学位
在机器人领域,移动机器人在未知环境中能够进行自动定位和制图(SLAM)以及感知周围环境的语义信息,是自动驾驶、无人车以及服务性家庭机器人等行业的关键技术,也是计算机视觉领域最前沿的研究方向,但是在定位精度和对周边场景的环境感知方面存在很大的问题。因此,本文的主要研究内容为基于视觉SLAM和深度学习的室内语义地图构建。本文通过RGB-D相机,实现对自身的定位并感知周边场景的环境,从而就可以构建具有语
学位
柔性电子技术,区别于传统基于硬质硅基底传感器,具有可弯曲、可拉伸等特点,未来有可能引发一场新的电子技术革命。目前,国内外众多科研机构都对柔性电子技术展开了深入的研究,使得柔性电子成为了研究热点之一。3D打印技术,因其独特的增材制造优势,被认为是一项有着巨大潜力的制造技术,英国经济学人杂志认为其将与信息技术共同推动第四次工业革命。本文将柔性电子与3D打印技术相结合,研究柔性电子传感器件制造与应用,发
学位
随着近年计算机技术的进步,需要处理的数据量级越来越大,维度越来越高。更高维度的数据往往蕴含更复杂隐蔽的潜在联系,这使得数据中蕴含的信息愈发难以观测。因此,如何高效地处理分析可视化这些多维数据一直是当今数据研究领域的热门话题。一方面由于以人类认知的局限性难以观测多维数据并想象高维空间的数据分布,多维数据可视化方法往往是数据分析的第一个环节。多维可视化方法利用多种算法将多维数据在人类可以观测的空间内展
学位
板坯号是钢铁企业热轧生产过程中板坯的唯一标识,板坯在进入加热炉生产之前,当前主要是依靠人工方式对板坯号进行识别,劳动强度高且容易出现识别错误。所以,利用图像处理和深度学习等人工智能技术实现对板坯号的自动识别,对于降低劳动强度、提高钢铁企业热轧厂的信息化和智能化水平具有重要意义。本文针对热轧厂加热炉工序的板坯号自动识别问题,基于深度学习和图像处理等方法,分别针对数据集自动构建方法、板坯号的单字符识别
学位
由于肺癌的临床表现复杂多样、但其恶化速度却十分惊人,所以肺癌的早期诊断有着重大意义。传统的基于图像处理技术的肺癌诊断方法,主要依靠基于医生经验的手工特征,如灰度、纹理等来实现,无法利用结节的视觉特征区分其与血管等其他组织,往往无法取得较高的准确率。近年来,随着深度学习的迅猛发展和有标注医学图像数据的骤增,将深度学习算法应用到计算机诊断技术中已经是大势所趋。为了减少肺结节的漏检和错诊,提高肺癌诊疗的
学位
随着全景技术的发展以及深度学习技术的广泛应用,全景图像的目标检测与人工智能方法相结合成为极具发展前景的一种视觉应用场景。同时,有效的深度学习网络模型为各行各业的人工智能研究提供了理论依据,极大地促进了互联网公司(如百度自动驾驶部门)、车企(如特斯拉公司)等机构基于学习架构构建无人自治系统的研究与应用。全景环境下道路目标的准确检测能够作为自动驾驶的基本感知能力,保证驾驶的安全性,是实现L5级无人驾驶
学位