基于深度学习的多模态音乐情感识别的研究

被引量 : 0次 | 上传用户:lklolp000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字媒体、音频技术和人工智能的快速发展,音乐的数据量持续增多,相对应的对其研究也不断增多。音乐的本质是人类情感表达的载体,如何实现更准确的对音乐情感进行识别就成为了我们关注的重点。本文基于深度学习融合多模态音乐特征,即结合音乐信息中不同类型的信息,将音乐的连续情感特征和离散情感特征结合,优化模型的情感识别效果。全文的创新点和主要工作内容可分为以下三个部分:(1)提出WLDNN_GAN模型。让原始音乐信息首先通过预加重、加窗和分帧的处理方法,再提取出处理过后的音乐样本中的MFCC(Mel-Frequency Cepstral Coefficients)特征和 PLP(Perceptual Linear Prediction)特征,将其作为构建出的WLDNN的输入,在WLDNN的高维空间中进行两种特征的融合,进行最大程度的保留原有的音乐特征,同时经过了预处理的音乐数据更具有代表性,为后面的识别部分做下铺垫。最后在GAN网络中进行情感识别,并与目前主流的情感识别模型 MLR(Multivariable Linear Regression Model)、DBLSTM(Deep Bidirectional Long Short-Term Memory)和CNN_GAN等模型进行横向对比,结果得出最后的VA预测回归值是优于目前主流模型,且价效值的预测效果要优于唤醒值的预测效果。(2)在前一章的基础上构建出WLDNN_SAGAN模型,即优化WLDNN_GAN的GAN模块,加入自注意力模块,优化音乐信号输入的权重大小,实现更高效且准确的音乐情感识别。本章采取申克尔分析法提取出乐章中最能代表情绪的乐段,并作为主旋律向量输入,并将第三章的基础上对MFCC特征进行优化,将MFCC特征与RP进行加权结合,来表示更完善更全面的音乐情感特征。将融合音乐信息输入到 WLDNN_SAGAN 网络中,并于 WGAN(Wasserstein GAN)、MCCLSTM和MCCBL等模型进行横向对比实验,得出WLDNN_SAGAN模型在输入特征连续情感空间提取到的MFCC特征与PLP特征与离散情感空间提取到的主旋律特征的数量为1:1的时候与其他主流情感识别模型相比精准度最高,可由此证明多模态特征输入对音乐情感识别起正向作用。(3)基于Pyqt5构建了智能音乐系统界面,并将本文所构建的WLDNN_SAGAN模型嵌入到智能音乐系统的情感识别模块中,实现用户只要导入音乐,系统自动提取出情感特征并进行情感识别的功能,除此之外,还设计了音乐播放、音乐生成和管理等模块。
其他文献
第五代移动通信(Fifth Generation mobile communication,5G)旨在显著提高无线系统性能,以实现比第四代移动通信(Fourth Generation mobile communication,4G)更高的数据速率、能源效率和可靠性。随着新的使能技术在5G中的应用,例如,大规模多输入多输出(multiple-input multiple-output,MIMO)、毫
学位
<正>一、设置理解性任务,分析孙少平形象理解性任务是考查学生对小说中情节、人物关系的掌握情况,以及在此基础上对人物形象初步概括的能力。理解性任务促使学生阅读整本书,而非仅仅阅读精简本或概括故事情节。笔者布置学生高二寒假阅读了《平凡的世界》整本书。
期刊
近年来,会计师事务所常因审计程序失当而审计失败,因而会计师事务所能否设计缜密严谨的审计程序,保证审计程序得到有效执行成为审计报告是否真实有力的关键性因素。随着“十四五”计划的开始,数字化、智能化正成为新一轮全球生产力革命的核心力量。审计行业作为维护资本市场稳定的一个关键组成部分,开始由传统审计向智能审计进行转变。但会计师事务所内部转变过程过于缓慢,导致会计师事务所难以有效执行审计程序,从而导致会计
学位
随着金融科技的快速发展,小微金融领域不断获得创新,拓宽了服务范围并创新了金融服务形式。然而,我国小微群体,特别是农村用户,面临着信用数据不充分、风险承受能力薄弱等困境,难以从正规金融机构获得充足贷款支持。此外,传统融资模式的交易费用和贷款成本高昂,交易流程繁琐,远不能满足小微群体紧急的资金需求。这一现象长期制约着我国小微经济的良性发展。因此,急需重视小微金融服务的创新和发展,为小微群体构建有效的金
学位
全球新一轮技术与产业革命形式迅猛,各国纷纷将战略重心落脚在工业的转型升级上。伴随着互联网技术的飞速提升和发展,特别是计算机运算能力和算法的有效突破,人工智能得以快速发展并逐渐与传统行业融合。2015年,中国参照产业发展与升级的客观规律,编制并颁布了《中国制造2025》,明确了工业化和信息化高层次深度结合推动产业发展的道路,追求可持续发展模式。习近平总书记在2018年12月21日中央经济工作会议上强
学位
由于磷的过量排放,对我国水环境造成了严重的污染,与其他除磷方法相比,生物法除磷的运行成本较低,并且可以同时进行脱氮除磷,且在最佳条件下对磷的去除率较高,但生物法除磷的效果不稳定,出水时可能无法达到磷的排放标准。为了解决这一问题,本研究利用阴阳离子交换膜的组合反应器,通过离子浓度强度差,构建出无动力的强化除磷反应器,达到低浓度含磷废水除磷的目的;并且以纤维素海绵为原料,通过环氧氯丙烷和乙二胺对其进行
学位
计算机技术的发展和人们对智能的需求推动了人工智能的不断进步。人工智能已成为推动经济社会发展的重要力量,给人类生活和工作各方面都带来了许多便利和创新。人工智能正在改变人类的思想、知识、感知和现实,并由此改变人类历史的进程。在此趋势下,人工智能文本的翻译也愈发重要。奈达的功能对等理论认为翻译时不求文字表面的死板对应,而要在两种语言间达成功能上的对等,使目标语读者产生和源语读者相同的反应。为了使人工智能
学位
目前,飞机的发展方向已经从以往的电能、液压能、机械能等多种次级能量综合利用向着更多采用清洁、便利的电能取代其余次级能量转变。更多采用电能驱动的多电\全电飞机能够使得飞机整体结构设计更简洁、能量利用效率更高,因此,亟需一种有着更高电能容量的航空电源系统作为飞机的整体电源系统,270V高压直流电源系统便应运而生。本文的主要研究内容是设计一套用于该系统的变流装置,其目标是通过功率因数校正(Power F
学位
沂蒙山世界地质公园是岱崮地貌的命名地。作为一种新地貌类型,其成因、形成年代及演化等方面尚存在争议。基于此,本次研究通过野外崮体特征调查,总结了岱崮地貌的特征,对地层及河谷横剖面实测和光释光(OSL)测年,估算岱崮地貌开始形成的年代。研究结果表明,岱崮地貌特征与地层岩性相关。顶部寒武系张夏组厚层石灰岩,因抗风化和侵蚀能力较强,且发育垂直节理而形成“顶平”“身陡”的崮顶;下部岩性以泥岩、粉砂岩夹薄层灰
期刊
<正>一、试题设计阅读图文材料,回答下列问题。2019年,沂蒙山岱崮园区被授予“世界地质公园”称号。岱崮地貌是2007年被重新命名的一种岩石地貌类型,是我国五大岩石造型地貌之一。经调查发现,五种岩石地貌在各种内外力作用下都有呈台桌状的方山地貌景观,但由于岩性和主要外动力的差异又各具特点。其中,丹霞地貌是(陆相)红色砂砾岩在流水作用、风化作用、重力作用及其他外动力作用下形成的一种岩石地貌类型。其演化
期刊