基于表情和语音的多模态情感识别及其在机器人服务任务推理中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:wangzhuo2009ny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着服务机器人在家庭情景中担任重要的角色,自然的人机交互成为影响用户满意度和人机共存舒适度的关键因素之一。如何在人机交互的过程中注重用户情感的识别、并在理解用户情感状态的基础上,让机器人在复杂多变的家庭环境中提供与情感相匹配的舒适度良好的服务,受到研究学者的广泛关注。由于人类情感的表达是一个复杂连续的过程,目前针对人类情感的识别重点逐渐从离散情感识别过渡到连续情感识别,同时单一模态的连续情感识别存在识别精度低、鲁棒性差的缺点,为了进一步提升情感识别的准确性,增强识别系统的鲁棒性,需要探索各模态之间的互补性,从而提升最终的情感识别质量。本文主要基于表情和语音在决策层融合的基础上对多模态情感识别展开研究,并针对复杂家庭场景下服务机器人的不确定性服务推理进行了探索和实验。本文主要研究工作由以下几部分构成:
  (1)针对连续面部表情情感数据集稀少和异常视频帧的问题,提出了一种基于Gabor变换的面部表情识别方法。首先对原始表情视频进行分帧,然后利用所设计的卷积神经网络对表情视频帧进行人脸检测并使数据归一化。接着利用Gabor变换对处理后的视频帧进行情感特征的提取。最后借助深度学习算法实现面部表情的情感识别。
  (2)为了提升语音连续情感识别的准确度,本文研究了基于迁移学习的语音情感识别方法,实现用户情感状态的识别。首先利用梅尔频率倒谱系数将一维语音信号转换为二维信号并完成情感特征的提取。然后对所提取的特征进行适当的裁剪。最后本文参考残差网络设计了适用于连续语音情感识别的迁移学习网络,实现连续语音情感识别。
  (3)研究多模态融合情感识别。由于单模态的连续情感识别准确率提升有限,本文考虑到各模态之间的互补性,以表情和语音这两种信号作为多模态融合的研究对象,并分析比较多元线性回归和卡尔曼滤波两种决策层融合算法。最后在开放数据库上验证多模态融合的情感识别算法,实验结果体现出使用本文所提出的多模态融合方法优于单模态情感识别准确率。
  (4)研究基于情感反馈的机器人服务任务不确定性推理方法。针对服务机器人的推理结果受到家庭情景中各种不确定性因素影响的问题,本文通过分析家庭情境中各因素对服务推理结果的影响,将多实体贝叶斯网络用于机器人任务推理,利用其概率图的特点,构建了包含不确定性信息的家庭情景模型,同时为了使所提供的服务更加人性化,将用户的情感状态加入到模型中,并结合联结树推理算法在复杂多变的家庭环境中实现服务机器人的不确定性服务任务推理。
其他文献
随着新一代创新技术的快速发展与广泛应用,现有的信息安全模式和理念正在面临极大的挑战,日趋复杂严峻的安全形势严重制约了我国社会信息化、数字化、网络化的进一步发展。“十四五”时期主要目标任务中强调要坚持总体国家安全观,加强国家安全体系和能力建设。作为网络空间安全和攻防对抗中至关重要的一环,异常网络流量检测系统能够实时侦测、监控、追踪和过滤可疑流量与连接,及时有效地发现、识别和防御强对抗环境下的潜在威胁
学位
多输入多输出技术(Multiple-input Multiple-output,MIMO)技术通过在发射端和接收端配备多根天线来获取空间分集增益,在不增加带宽和发送功率的情况下,提升系统传输速率和频谱效率。但是MIMO技术在带来性能增益的同时,还存在着许多问题。首先,MIMO系统发送信号时会使信号受到信道间干扰(Inter-channel Interference,ICI),其次系统在工作时需要进
计算机断层成像技术(ComputedTomography.简记作CT)是种获得物体断面的成像技术。由于人体基本组织或物体内部结构对X射线的吸收率和透射率的不同,首先使用高灵敏度的检测器对待重建物体进行扫描获得投影数据,然后将投影数据传输到计算机,最后使用计算机对投影数据进行处理,处理后即可获得待检测物体断面图像。CT成像技术在工业和医学方面发挥了关键作用,但其在实际应用中也存在一些问题:工业上,由
癫痫(Epilepsy),俗称“羊癫风”,是一种由多种病因引起的慢性脑功能障碍综合症,是继脑血管疾病之后的第二大脑部疾病。脑部神经元突发性地、反复性的异常放电会造成中枢神经系统功能的间歇性障碍,这是导致癫痫发病的根本原因。癫痫疾病的临床表现包括突然失去意识、全身抽搐和精神障碍等。对于儿童病患会在身体发育和智力发育方面受到巨大影响,更多癫痫患者是饱受生理和心理上的煎熬。  脑电图(EEG)是研究癫痫
学位
普适计算以用户为中心,追求透明地提供智能服务,其重要产物—一情景感知系统已广泛应用于智能家居、智慧医疗和智慧旅游等领域。目前,面向不同场景实现不同功能的情景感知系统层出不穷,但缺少统一的系统整体评估标准以及具体且有效的系统自适应优化方法。另一方面,在高动态智能环境下,异构采集设备的错误、网络延迟等原因导致情景信息无可避免地存在不一致性,使情景信息质量较低并影响系统做出正确的推理及决策,极大降低了用
基于图像的文字检测与识别技术是计算机视觉领域的重要任务之一,光学字符和自然场景文字是两类重要的辨识目标。光学字符识别是指,从扫描文档图像中,提取其中的文字信息,目前扫描文档文字识别技术已相对成熟。另一类是自然场景文字识别,提取自然场景图像中的文字,由于自然场景下背景复杂,成像质量不佳,文字样式多样,识别自然场景中的文字的难度远高于前者,目前主流的文字检测与识别方法还不足以满足实际工业应用的需求。本
学位
超分辨率恢复是计算机视觉和图像处理中一个重要的研究问题。超分辨率恢复是一种基于软件算法的技术,具体是指通过对数字图像信号的分析,将一帧或多帧低分辨率图像进行恢复重建,将其转化成更高分辨率图像或视频的技术。在实际中,超分辨率恢复有着广泛应用,如医疗图像分析、视频监控、生物特征识别和安全性等领域。除了提升图像质量外,它还有助于提升其他计算机视觉任务的效果。因此,对提升超分辨率恢复技术的研究具有非常重要
海洋中蕴藏着丰富的自然资源,探索海洋逐渐成为世界经济发展的新动力,各海洋国家已经把经济发展重点从陆地转向海洋,不断加大对海洋的开发力度,作为发展中国家的中国,人口基数大,土地资源紧张,发展海洋经济迫在眉睫。  探索和开发海洋的前提条件是具有一定下潜深度的深潜器,工欲善其事必先利其器,一国深潜器的开发利用水平直接关乎探索海洋的深度和广度。深潜器的结构支撑材料是“海洋金属”-钛合金,深海作业过程中钛合
群智能优化算法起源于生物仿生学,起初受启发于各种生物的种种生存和活动行为。自从出现以来,群智能优化技术作为一项重要的优化技术,在工业生产,工程应用和社会生活中都得到了广泛使用,并随之不断进行改进和创新。作为近几年新提出的算法,狮群优化算法具有优秀的机制设计和较大的发展潜力,不失为一种值得深入研究的算法。  在行为模式机制上,狮群算法对草原狮群的围猎进行数学模拟。划分种群为狮王,成年母狮,幼狮三类个
人类交流过程中,80%的信息来源于肢体语言,准确识别人体的动作对改善人机交互有着重要意义。骨骼数据拥有时间和空间两个维度的信息,两个维度之间伴随着共现特征,如何更好的提取和利用时空特征存在很大的挑战。在获取数据的过程中,还存在多视角问题,同一个动作可能出现完全不同的表现,不仅会增加模型构建的难度,同时还存在模型识别率低的问题。  针对骨骼动作识别时空特征提取难的问题,本文提出一种基于图注意力网络的
学位