基于多模态的情绪识别算法研究与实现

来源 :成都理工大学 | 被引量 : 0次 | 上传用户：jstxwt

【摘要】

：

【作者】

：

申泽轩

【机构】

：

成都理工大学

【出处】

：

成都理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机算力的不断提高,情感计算的相关研究也取得了重大突破,情绪识别作为该领域的重要分支,受到众多国内外研究者的关注。鉴于单模态情绪识别存在准确率较低的缺点,研究者提出用多模态的思想来研究情绪识别。通过采用更加全面而丰富的多模态信息,结合多种维度的特征,借助深度学习中的神经网络分析信息中的关联性和互补性,从而显著地提高了模型的准确率,增强了模型的鲁棒性。本文基于深度学习思想,主要提出了针对文本模态、音频模态和视频模态的三种情绪识别模型设计方案,在特征提取和组合层面做出了探索,并在网络结构层面进行了优化。针对多模态融合相关技术进行了改进,在决策层面进行了多模态融合。本文的主要研究工作为:（1）研究文本模态情绪识别的自然语言预处理方法和特征提取算法。对文本模态样本进行了自然语言预处理与Word2Vec嵌入操作。设计了一种双层特征提取网络,浅层由一维卷积神经网络组成,深层由长短时记忆网络组成,进行线性堆叠,用于文本模态情绪特征的提取。这种设计有效地利用了文本数据上下文间的关联信息和语序信息。针对本文提出的文本模态情绪识别算法,进行了对比实验,与现有常见算法相比,识别准确率提升了4.6%。（2）研究音频模态情绪识别的音频信号预处理方法和特征提取算法。对音频模态样本进行了音频信号预处理操作,提取了对数-梅尔谱图特征。设计了“Time-Distributed CNNs+LSTMs”网络,该设计充分利用了音频时域信息。针对本文提出的音频模态情绪识别算法,进行了对比实验,与现有常见算法相比,识别准确率提升了12.1%,同时在模型训练速度上也有明显的提高。（3）研究视频模态情绪识别的图像预处理方法和特征提取算法。对视频模态样本进行了图像预处理,提取出HOG特征。然后,利用优化后的Xception体系,构成了视频模态情绪特征提取网络的主框架,提取视频模态的深层特征。同时引入Deep ID V3网络实现对人脸特征点的提取,作为补充特征,从而使提取的视频情绪特征更加全面有效。针对本文提出的视频模态情绪识别算法,进行了对比实验,与现有常见算法相比,识别准确率提升了5%。（4）研究多模态融合的方法。综合考虑各模态的情绪表现力以及后续模态扩充需要,最终采用了晚期融合方法实现了音频和视频模态的决策层融合。基于两种不同思想进行了实验验证,其中,基于权重自适应思想的晚期融合方法,证实了多模态融合算法的优势,识别准确率在本文提出的单模态情绪识别算法最优结果基础上,又有了3.93%的提升。（5）构建AI面试平台。通过本文研究得到了三种单模态情绪识别模型,建立一个基于上述三种模型的AI面试平台,该平台为求职者在面试问题练习上提供了一种可靠的实践方式,求职者可以输入文本、音频和视频三种模态的数据,来辅助自身进行面试练习。该平台将为求职者提供情绪分析简报,帮助求职者针对性地完善自己的情绪表达。

其他文献

我国网络科普传播的编码解码研究——以《科普中国》为例

在互联网时代的当下,借助网络平台优势,以广大网民为传播对象的科学普及活动已成为我国科普传播的重要方式之一,尤其在新冠疫情频发的特殊时期,网络科普,特别是占据主导地位的主流网络科普传播更是发挥着不可替代的作用。目前,我国网络科普传播还处于发展期,各类科普网站、科普APP、科普公众号等也在探索完善阶段。学界对网络科普的研究多集中于某一具体领域,或局限于传统的“5w”模式分析科普传播,忽视了从编码解码理

学位

国内短视频平台上公共议题的消解与建构研究——以抖音APP为例

互联网发展到今天,已经走过了野蛮生长的阶段。无论是用户还是内容生产者,都在潜移默化中转变着自己在这个数字时代中的身份。媒介环境因为短视频平台的兴起发生着肉眼可见的变化,公共舆论场也随着用户的大量涌入逐渐在短视频平台落地生根。由于其自身的特点,短视频平台上充斥着大量具有娱乐性、低俗化、难辨真伪特点的视频内容。海量的信息洪流令人眼花缭乱,筛选和净化机制的缺乏令公共议题的讨论空间受到挤压,不得不让位于娱

学位

基于半监督学习的图像自动描述技术研究

图像自动描述是一种跨模态转换的技术,它可以建立图像和文本之间的桥梁,让机器具有理解能力,对一张图片的内容进行详细地描述。人工智能技术的研究核心是如何让机器像人一样进行思考和决策,而让其具备“理解力”则是第一步。纵观整个图像自动描述技术的发展史,研究人员的研究重心都是围绕如何生成准确、连贯且贴合图片内容的句子而展开的,而关于图像描述技术的实际应用研究却很少。究其主要原因是这些模型都过度依赖于imag

学位

移动医疗APP受众行为意向影响因素研究

随着经济社会的发展和物质生活水平的不断提高,健康问题逐渐成为全社会关注的重点,人们对健康服务的需求越来越旺盛,越来越多的健康服务产业应运而生。在“互联网+医疗健康”背景下,中国移动健康产业蓬勃兴起,移动医疗APP如雨后春笋。目前,移动医疗APP还存在着产品功能同质化严重、平台难以保障受众隐私、法律法规尚未健全、监管体系亟待完善等问题。为了提升受众体验,提高产品服务质量,激发受众需求,推动移动医疗A

学位

民间自媒体对中国国家形象的建构研究——以“李子柒”短视频海外传播为例

近年来,随着移动通信技术的发展,短视频已成为人们信息传播的重要手段,自媒体短视频以其丰富的视听表达,开始在跨文化传播中发挥重要作用,成为社交媒体时代建构国家形象的重要力量。本文正是在这样的背景下,提出了本文的研究对象:“李子柒”短视频的海外传播,有着“东方美食生活家”之称的李子柒,以中国传统的饮食文化为切入点,围绕传统田园生活的衣食住行推进,以短视频的方式展现了古色古香的美食和返璞归真的田园生活,

学位

路面隐伏病害雷达图谱库构建及智能检测方法

近三十年来,我国的高速公路建设获得了飞速发展。随着公路运营时间越来越长,重载、雨水、温度等外部因素会导致裂缝、坑槽、沉陷等表面病害和不密实、层间脱空、松散等隐伏病害发生。目前,我国高速公路已从“建设为主”逐渐转变为“建养为主、养护为主”。为了提高公路养护决策能力,保证交通安全,对公路病害,特别是隐伏病害的高效、高精度检测成为了当前亟待解决的关键问题。隐伏病害检测方法主要分为钻芯取样和无损检测两大类

学位

突发公共卫生事件背景下医疗类科普短视频健康传播的社会影响研究——以《丁香医生》为例

近年来,突发公共卫生事件频发,对人们的身体健康与生命安全产生极大的危害。疫情的有效防控成为各国关注的焦点。科普短视频的兴起,为健康传播提供了新的传播手段。作为一种新兴的传播媒介,科普短视频具有将大众传播和人际传播相结合的优势,其时效性和传播广度也达到历史峰值,为突发公共卫生事件背景下的健康传播提供了新的机遇。因此,发挥其在突发公共卫生事件背景下的社会影响研究极具理论和现实意义。2019年12月8日

学位

微波双频滤波与功分器集成结构研究与设计

学位

高度可控的应用系留气球应急通信控制系统设计

近些年,雪灾、洪灾、泥石流和地震灾害时常在我国发生,这些自然灾害对我国人民生命和财产安全造成了巨大的损失。受灾地区的通信基础设施往往在灾害中被大规模损坏,灾区的通信长时间处于中断状态。因此,在灾害发生后为通信中断的受灾区域提供通信保障具有十分重要的意义。目前,常见的应急通信方式有应急通信车、卫星通信、固定翼无人机通信和系留多旋翼无人机通信等。但它们都存在各自的缺点:1,应急通信车天线高度较低,信号

学位

机载信号采集存储系统的设计与实现

随着无人机的功能和性能需求的不断提升,为确保无人机各项功能的完备、工作状态的安全稳定,则需要对无人机高速飞行时的关键数据进行采集和存储,飞行结束后再对存储数据进行回放及分析。因此研制出小型化、低功耗的机载信号采集存储设备具有重要的现实意义。本文根据课题相关技术指标和实际应用场景,设计一种以FPGA+ARM为处理核心的机载信号采集存储系统。主要研究内容如下:首先研究数字下变频的整体结构。在数控振荡器

学位

基于多模态的情绪识别算法研究与实现

其他学术论文