基于深度学习的面部表情识别和帕金森病诊断多任务学习研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:liongliong488
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络作为深度学习领域被广泛使用的模型,其在计算机视觉的诸多领域有着较好的应用与研究。作为具有很高研究热点的计算机视觉领域包括图像识别、目标检测、语义分割等模块,且这些模块的研究也取得了很好的进展,同时,结合人工智能技术在医疗领域的应用也在蓬勃发展。为了应用这些已取得较好效果的深度学习模型并在医疗领域展现人工智能技术的强大作用,本文提出了基于卷积神经网络的面部表情识别模型、基于卷积神经网络和面部表情识别技术的帕金森病诊断多任务学习研究模型,在该方法下,不仅可以得出面部表情识别结果,也能判断是否患有帕金森病,相信可以对医疗临床诊断帕金森病提供参考。本文主要为图像识别领域的研究,其涵盖内容如下。(1)面部表情识别是通过给定图像和视频数据得出当下时刻的个人情感状态以达到人机交互的目的。本文主要选择了生气(angry)、厌恶(disgust)、害怕(fear)、高兴(happy)、伤心(sad)和惊讶(surprise)6类表情用以实验研究,通过与南昌大学第二附属医院合作采集了帕金森病患者的表情数据集(称为PDface),正常人则选用了公开表情数据集Oulu CASIA。(2)帕金森病是一种神经系统变性疾病,造成该病的主要原因是中脑黑质多巴胺(DA)能神经元变性死亡,由此而引起纹状体DA含量显著性减少而致病,数据显示65岁以上老人患病率为1.7%,因此对于这一病症的早期筛查也极具重要意义。由此本文的目的旨在通过建立多任务学习网络模型,实现能识别表情和预测是否患有帕金森病,且准确率得到提高。(3)针对面部表情识别;本文神经网络模型主要采用密集连接网络(DenseNet)和改进的多尺度卷积核(GoogLeNet)结构,改进的结构为将原始的Inception模块中的5×5卷积核改为了用两个3×3卷积核替代,同时将原有的3×3卷积核后再增加一个3×3卷积核。通过将上述两种结构合并在一起进行实验并得出面部表情识别结果。在利用改进的表情识别模型进行实验并和其它经典CNN模型对比后,验证了改进模型的有效性,提升了面部表情识别的准确率。实验中,设计了两种方式进行表情识别的实验,改进模型在第一种方式下的的识别率为69.73%,第二种方式下的准确率提高到了70.22%。(4)针对帕金森病预测任务;由于帕金森病患者的某些表情(如恐惧和生气)与非帕金森患者的相应表情存在差异,因而基于面部表情识别进行卷积神经网络驱动下的帕金森病患者识别成为可能,因此又提出了一种新颖的可实现帕金森患者识别的多任务学习网络模型,被称为DMSNet模型,该模型继续采用上述面部表情识别结构,具体方法为:首先将原始数据分别输入到上述两种网络中,通过残差学习和多尺度卷积等步骤提取潜在特征后,再将两类潜在特征向量相加输入至全连接层,获得表情识别结果;随后,将每个人的6类表情向量组合输入到下一层全连接层中,获得最重的帕金森患者的预测结果。通过在Oulu CASIA数据集和PDface数据集上进行交叉实验并与其他深度学习经典模型的横向定量对比之后,DMSNet模型在帕金森病诊断上的有效性得到验证,其提出的DMSNet模型对是否患有帕金森病预测的平均识别率近100.0%,此外,DMSNet模型采用多任务学习机制的优越性也通过与其它只进行帕金森病预测的单任务学习模型做对比实验后,得到验证,单任务学习中改进结构的帕金森病预测的识别率为99.89%。另外,该多任务学习模型的优化目标为面部表情识别和帕金森病诊断两类任务,且实验的总损失值为两类预测任务损失值的总和,在实验中将OuluCASIA数据集和PDface数据集合并使用,并进行5折交叉实验。最后,实验结果表明了结合面部表情识别技术的帕金森病诊断多任务学习研究是有效的。
其他文献
近年来,随着信息时代的发展,人脸表情识别已经成为了计算机视觉领域的一个重要课题,广泛地应用在人机交互、医疗辅助、在线教育、安全驾驶等领域中。针对目前人脸表情识别存在的一些挑战性问题,本文结合深度神经网络,从特征提取、数据库的局限性、卷积神经网络优化、损失函数的改进等多方面展开研究,主要工作内容如下:(1)考虑到单一特征不足以表征人脸信息,本文提出了一种基于局部二进制模式(LBP)和梯度特征的双通道
随着科学技术的不断进步,焊接产业向着智能化和自动化的方向发展,焊接机器人已广泛应用于工业生产等领域。而移动焊接机器人在焊接环境行进及作业过程中需要对周围障碍物进行识别,为移动焊接机器人的下一步运动控制提供依据。本文在自主研发的移动焊接机器人平台上开发视觉传感系统,确立了一种基于双目视觉的障碍物检测与定位方案,通过实验验证了方案的可行性。主要研究内容如下:(1)本文搭建了双目视觉系统,设计了相机夹持
糖蛋白是一类参与多种生理和病理过程的重要生物分子,其在多种生命活动中发挥着重要作用。糖蛋白在体内的异常表达与多种生理病理密切相关,因此被广泛认为是临床诊断的生物标志物之一。在临床诊断中,实现糖蛋白的即时检测(Point of care test,POCT)对疾病的早期诊断和患者生存率的提高具有重要意义。目前,酶联免疫吸附试验(Enzyme linked immunosorbent assay,EL
场景图生成任务是指从图像中检测目标类别和推理目标间关系,并利用图结构来简洁且结构化地描述图像。它是沟通自然语言与计算机视觉的桥梁,近年来成为图像理解领域的热门研究方向。深度学习也已成为图像理解的有力工具。然而现有的场景图生成方法仍然存在两个问题。问题一是现有的场景图生成方法推理得到的关系多样性较差。一方面,特征不完善会导致关系多样性受限。现有方法单纯利用视觉特征进行类别推理,相似关系之间的差异性较
脑机接口(Brain Computer Interface,BCI)作为一种新型信息沟通控制手段,是一个涉及神经科学、信号处理以及模式识别等多个学科的交叉研究课题。基于运动想象的BCI系统被认为是最具有发展前景的一种脑机接口系统。针对基于机器学习方法构建脑电特征与运动想象之间映射关系进行分类时,现有方法仍存在着无法兼顾脑电信号的时-空域特征,并且分类精度难以提高的问题,本文开展基于注意力机制的双向
皮肤触觉感受器因接受机械刺激而产生的感觉,称为触觉。通过仿生触觉传感器,机器人也能捕捉因相互接触而产生的物理交互信息。本文面向现代机器人触觉感知的实际应用,针对目前多传感融合所面临的实际问题,依据现代稀疏编码相关理论和最新研究进展,进行理论和实验研究,实现多传感信息互补以提升机器人对环境的感知能力。本文的主要研究工作如下:首先,针对稀疏联合组套索模型的优化求解问题,本文构造了一种基于近端梯度下降法
行人重识别是视频监控工作中的一项重要任务,在相机无法获得高质量的人脸图像时,利用身体特征、步态动作等更为全面的信息继续识别目标,无论是单独使用还是与人脸识别技术相结合,都能发挥重要的作用,在计算机视觉领域有重要的学术研究意义。目前,基于单帧图像的行人重识别研究已经获得很大的进展,但图像的信息有限并对图像质量有较大的要求。考虑到基于视频的行人重识别方法不仅关注单帧图像的信息,还能够利用帧与帧之间的时
遥操作机器人可以代替人手代替操作者去执行危险任务,并且操作者可以通过力反馈设备感知到远端环境与从端机器人的交互力从而判断从端机器人情况。但是由于通信时延的存在以及系统中有力反馈设备的参与,这将破坏遥操作机器人的系统稳定性。因此,本文提出一种基于加幂积分算法的有限时间控制器,结合有限时间收敛的干扰观测器的控制策略来提高带有力反馈的遥操作系统的稳定性、快速性、精确性以及鲁棒性,使得带有力反馈的遥操作系
财务管理是事业单位管理工作的重心,直接影响单位运营效率和质量。但在大数据时代背景下,事业单位财务管理信息化建设存在着认知不足、系统兼容性不强及安全性能不够等问题,已无法适应时代发展要求,因此运用大数据技术,推动事业单位财务管理信息化建设,顺应时代发展要求有其现实意义。文章提出了奠定事业单位财务管理信息化建设的环境基础、搭建功能模块集成化系统、建立线上报销平台及搭建基于内联网的安全保障机制等措施,推