基于音视频的情绪识别研究

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:wcd_soft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情绪识别技术在医疗、教育、服务、交互等领域具有广泛的应用前景。作为人工智能的一个重要研究领域,情绪识别技术近年来取得了较大进步。但是,由于情绪状态本身具有较大的复杂多样性,个体情绪的表现形式又受到文化和个性的影响,情绪识别技术目前还存在识别率不高、识别效果不稳定、应用条件受限等问题。本课题主要研究基于音视频数据的情绪识别问题。在研究基于视频的面部表情识别时,分别尝试了长短时记忆神经网络(long-short term memory,LSTM)和三维卷积神经网络两种神经网络技术进行模型训练,这是因为长短时记忆神经网络多用于处理数据具有时序性的问题,三维卷积神经网络则可以挖掘图像帧与帧间的信息。首先对数据进行了预处理的操作,将截取的面部图像保存,然后提取HOG特征和几何特征。LSTM神经网络利用面部的HOG特征,几何特征以及二者的级联作为输入。三维卷积神经网络则直接利用视频图像自动生成复杂特征然后进行模型训练。音频情绪识别模型使用了人工特征提取加LSTM神经网络的方法。首先对音频数据进行预处理,然后使用Open SMILE工具提取短时过零率、短时能量和梅尔倒谱系数等特征,构建LSTM网络模型并进行训练。在建立了基于音频的情绪识别模型和基于图像的面部表情情绪识别模型基础上,利用贝叶斯方法对三个模型进行融合,输出最终的情绪分类结果。论文使用中科院发布的CHEAVD2.0数据库进行训练和测试。基于视频数据得到的模型和基于音频的情绪识别模型在不同情绪类别的分类能力上有所不同,各自有一定的优势。实验结果显示,多模态融合后的识别率有明显提高。
其他文献
  随着城市建筑物的迅速增加,建筑物竣工成为目前测绘作业中重要一环。传统全站仪测量竣工的缺点越来越凸显,为了解决传统作业过程中所面临的作业时间长、作业环境复杂等问题
本文立足中国高校网络文化立德树人具体情境,在新发展理念引领下,通过提炼研究背景、实践意义和路径体系,揭示新发展理念融入高校网络文化立德树人的协同机制,提出行动方案和
<正>核心提示本文从不可抗力、装卸时间、合同谈判等方面简要阐述新冠肺炎疫情的影响以及明确、清晰的条款对于合同的重要性。近期,BIMCO接到很多会员的咨询,内容都是关于新
目的:心血管疾病(cardiovascular disease,CVD)是世界上发病率和病死率较高的疾病之一。动脉粥样硬化(atherosclerosis,AS)是导致CVD的重要病理基础。人参丹参是中医治疗CVD的常
<正>耻骨联合由两侧耻骨联合面借耻骨间盘连接而成,耻骨间盘由纤维软骨组成,中间有耻骨联合腔,该腔正常间距为4~5 mm,孕产妇可生理性增宽2~3mm,但一般不会超过10 mm。妊娠或生
本文从词汇、句法和语篇方面对航海专利英语的特点进行分析,探讨其具体汉译的方法,旨在为英语航海专利汉译提供借鉴。
目的观察3M加压固定胶带在胸腔闭式引流管固定中的应用效果。方法将30例成功置管且留置时间超过2周的患者,根据置管时间先后顺序编号,再按照编号的单双号分组,单号分为观察组
历史是最好的参考书,学习党史,从中借鉴经验和教训,可以为中国特色社会主义新发展提供前进动力。2021年是中国共产党成立100周年,百年党史是一部包含着中国人民和中华民族革命、
报纸
本文討論三個西夏語語法解析的小問題:(一)取英藏西夏文本《孫子兵法》殘片的第一個字,漢語借詞■lju~1「流」,論其與原典漢語「水因地之下,則可漂石」的對譯關係。(二)考察
金属-有机多面体(metal-organic polyhedra,MOPs)是继金属-有机框架(metal-organic frameworks,MOFs)和分子筛之后,又一类新兴的多孔超分子材料。它们是通过分子多边形的共边、共