【摘 要】
:
语音是人与人之间最自然、最便捷的交流方式,语音中不仅包含文字信息,还包含丰富的情感信息。随着科技的发展,旨在从语音中提取说话人情绪状态的语音情感识别成为实现人机交互的重要方式,具有重要的研究价值和广阔的应用前景。近年来,自动语音识别技术已经能够准确提取语音中的文本信息,使得融合声学特征与文本特征进行情感识别成为可能。本文研究了基于文本和声学特征的语音情感识别,具体研究工作如下:首先,针对传统RNN
论文部分内容阅读
语音是人与人之间最自然、最便捷的交流方式,语音中不仅包含文字信息,还包含丰富的情感信息。随着科技的发展,旨在从语音中提取说话人情绪状态的语音情感识别成为实现人机交互的重要方式,具有重要的研究价值和广阔的应用前景。近年来,自动语音识别技术已经能够准确提取语音中的文本信息,使得融合声学特征与文本特征进行情感识别成为可能。本文研究了基于文本和声学特征的语音情感识别,具体研究工作如下:首先,针对传统RNN只能串行计算、计算速率慢的问题,搭建了高速并行的CNN-SRU网络模型,并为其设计了采样值点、声学复合特征和三维声学复合特征三种特征输入。在IEMOCAP数据库上进行实验验证,发现使用三维声学复合特征的CNN-SRU模型识别效果最佳,识别准确率达67.72%。与CNN-BiLSTM模型进行对比实验发现,CNN-SRU模型在牺牲了少量识别准确率的情况下,识别速度得到明显提升。其次,针对语音中情感分布不均衡的问题,引入通道和时间注意力机制,使用通道注意力关注不同通道之间特征的差异性,使用时间注意力关注不同时序上特征的差异性,并搭建了三种基于注意力机制的语音情感识别模型,分别是基于通道注意力机制的CACRNN模型、基于时间注意力机制的TACRNN模型和基于双注意力机制的DACRNN模型。其中,DACRNN的识别性能最佳,在IEMOCAP和Berlin EMO-DB数据库上进行实验验证,识别准确率分别达到71.12%和95.80%,优于多个已有的语音情感识别模型。最后,在DACRNN模型的基础上引入文本特征来丰富情感信息,搭建基于文本和声学特征的语音情感识别模型,包括特征层融合的FLFTAF模型和决策层融合的DLFTAF模型,两者在IEMOCAP数据库上进行实验验证,识别准确率分别达到74.27%和77.18%,识别效果优于采用单一特征的情感识别模型,DLFTAT模型识别效果优于多个已有的语音情感识别模型。
其他文献
本次研究的目的是分析FDI、FD和经济增长之间的影响因素和关系。外商直接投资(FDI)和外债(FD)被认为是影响任何国家,特别是发展中国家的经济和经济增长(EG)的重要因素。但存在这样一个问题,外国直接投资从过去到现在一直被发展中国家忽视,并且外债被特定学派普遍视为发展中国家经济增长的负面因素。本研究旨在评估在1980-2020年期间,外商直接投资(FDI)和外债(FD)对印度、巴基斯坦、斯里兰卡
十九大以来,我国的经济发展开始走向新的发展阶段,构建高质量的发展格局成为未来发展的重点目标。但实体企业的过度金融化行为愈演愈烈,企业的资源不断脱离实体领域而进入金融领域获利,加剧了金融市场的膨胀,对宏观经济的发展带来非常不利的影响,过度的金融投资成为经济转型和升级中的障碍。与此同时,一场数字化革命在我国金融市场上悄然兴起,数字技术力量的迸发重塑了金融市场的格局,产生了新的金融业务模式—数字金融。数
众所周知,有机共轭聚合物自身的共轭体系给聚合物本身带来了导电性,这是有机导电聚合物在光伏领域应用的基础。本文从有机共轭导电聚合物调控的基本调控方法出发,分别探究了一维共轭体系,二维非稠环共轭和稠环共轭体系三种基本调控策略对有机共轭聚合物光伏性能的影响,同时对不同策略所合成聚合物的光电性能进行了详细的研究。主要内容如下:(1)在一维共轭体系调控策略角度,主要研究了杂原子的影响。针对当前比较热门的通过
为了控制硫酸氢氯吡格雷产品的质量,保证用药安全性,对硫酸氢吡格雷的有关物质(杂质A、杂质B、杂质C)、残留溶剂(丙酮、乙腈、二氯甲烷、乙酸乙酯)和硫酸氢氯吡格雷的含量分别建立了测定方法。1)有关物质:建立了一种HPLC检测方法,该方法利用色谱柱Ultron ES-OVM(4.6×150 mm,5μm)进行分离。色谱条件为:以0.01 mol.L-1磷酸二氢钾—乙腈=78:22为流动相,流速为:1.
2020年新冠肺炎疫情爆发,对中国乃至全球的社会运行、经济发展等造成了极其恶劣的影响。在诸多应对传染病的手段中,提前接种疫苗是最有效最经济的手段。生物疫苗企业作为研发和生产疫苗的最基本的单位,具有技术门槛高、前期投入高、风险高和周期长等特征,是一种技术密集型企业,这些特性决定了生物疫苗企业面临着严峻的融资难题。为了解决生物疫苗企业资金融通难的问题,需要对企业的竞争力作出合理的评价,为企业改善经营状
我国“一带一路”倡议提出以来,受到国际社会普遍关注,许多国家视其为缓解逆全球化趋势和单边霸权主义的重要举措,抓住宝贵的发展机遇与中国开展经贸合作。中国与沿线各国加强政策、资金、设施、贸易和民心等方面的交流沟通,有利于沿线国家营商环境的改善,而且在鼓励企业进行海外投资方面影响深远。本文运用空间计量经济学模型,采用2007-2019年60个“一带一路”沿线国家的面板数据进行实证检验,探讨沿线国家营商环
在过去的几十年里,自组装分子器件以其体积小、性能好和可扩展性强而引起了人们的极大关注。通过不同的自组装方法和材料制造的自组装分子器件有几类,包括分子线、分子开关、分子整流器、分子二极管、分子存储器和分子场效应晶体管。近年来,随着各种自组装系统的推出和新材料的应用,自组装分子器件的性能记录不断刷新。然而,较差的稳定性和可重复性被认为是自组装分子器件商业化的关键障碍。因此,探索新型分子,探索分子与电极
对甲氧基环己酮作为重要的医药、农药中间体被广泛应用于治疗老年精神疾病、眼部疾病等神经疾病的药物以及具有杀虫杀螨功效的螺环季酮酸类农药的合成中。中间体对甲氧基苯酚同样是重要的精细化学中间体,因此对对甲氧基环己酮及其中间体的合成研究具有重要意义。本课题尝试了两种对甲氧基环己酮的合成方法,主要体现在中间体对甲氧基苯酚的合成方法不同。其一是在强酸条件下,对苯二酚直接被甲醇甲基化得到对甲氧基苯酚;选用固体酸
无线通信技术提供了通信最后一公里的话音和网络接入服务,为人们生活提供了极大便利。由于无线传播场景的复杂性,无线通信一直致力于无线信号的覆盖能力和质量的提升。有数据表明,室内产生的无线数据流量和业务大概占据总体无线数据流量的七成以上,室内场景中的电波传播特征会影响室内无线通信技术的性能,开展室内无线信道研究有重要意义。可重构智能表面(Reconfigurable Intelligent Surfac
世界科技水平不断发展,人们对于生活水平的追求也在不断提高,人口老龄化严重以及疾病等引发的骨组织缺损越发受到重视。用于骨组织修复的可植入型材料的研究与开发已成为骨组织工程研究领域的热点。聚磷酸钙(CPP)作为一种既具备聚合物材料的结构又具备无机材料理化性质的无机聚合物,因其具备良好的力学性能、生物相容性、骨传导、骨诱导性以及具有与自然骨相似的无机成分和化学结构,成为具有广阔应用前景的生物可植入材料,