基于3D和1D多特征融合的语音情感识别算法

来源 :声学技术 | 被引量 : 0次 | 上传用户:anran520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对语音情感识别任务中特征提取单一、分类准确率低等问题,提出一种3D和1D多特征融合的情感识别方法,对特征提取算法进行改进。在3D网络,综合考虑空间特征学习和时间依赖性构造,利用双线性卷积神经网络(Bilinear Convolutional Neural Network,BCNN)提取空间特征,长短期记忆网络(Short-Term Memory Network,LSTM)和注意力(attention)机制提取显著的时间依赖特征。为降低说话者差异的影响,计算语音的对数梅尔特征(Log-Mel)和一阶差分、
其他文献
为提高神经网络在说话人识别应用中的识别性能,提出基于高斯增值矩阵特征和改进深度卷积神经网络的说话人识别算法。算法首先通过最大后验概率提取基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的高斯均值矩阵,并对特征进行噪声适应性补偿,以增强信号的帧间关联和说话人特征信息,然后采用改进的深度卷积神经网络进一步对准帧间信息,以提高说话人识别特征对背景噪声的适应性。实验结果表明,相比于高斯混合模型-通用背景模型等识别框架及传统MFCC等特征,该算法可取得更高的
为了研究弯曲角α、弯曲半径和壁厚对Q345钢薄壁矩形管绕弯截面畸变的影响,利用Dynaform软件分别对两种壁厚的管坯在6种弯曲角度与5种弯曲半径下的绕弯成形进行仿真,得出每种情况下反映弯管截面畸变程度的3个畸变参数值。结果表明,Q345钢薄壁矩形管的绕弯成形存在由管坯尺寸和弯曲半径决定的临界弯曲角αc,弯管上的3个畸变参数值在α>αc时均保持稳定,不随α变化而变化,但当α<αc时其中至少1个畸变参数值随α增大而增大,而当α一定时则均随相对弯曲半径的减小而急剧增大;在管坯横截面宽度、高度、外圆
为研究不同品种山楂不同组织部位的抗氧化成分及活性,该文以3种山楂属果实(大山楂、小山楂和山里红)为原料,通过测定不同组织部位的总酚、总黄酮、原花青素以及单宁含量和抗氧化活性指标(DPPH自由基、ABTS阳离子自由基清除能力以及还原能力),综合评价山楂属果实的抗氧化性能。结果表明,3种山楂果实的果皮具有较高的总酚、总黄酮、原花青素以及单宁含量,并且具有较强的抗氧化活性;大山楂和小山楂果皮和果肉含有较高的总酚、总黄酮含量,并且表现出了较强的抗氧化活性;山楂属果实不同组织中总酚、总黄酮含量与抗氧化活性之间呈现极
针对深拉延零件轮罩内板成形破裂风险区域,利用ARGUS网格应变测量系统,分析了零件成形危险点的应变特征;轮罩内板分析模型,结合MATLAB最小二乘法,建立了不同屈服强度下硬化指
从主客观评价角度出发,针对竞品车急加速进气噪声建立了声品质物理评价模型。通过测试竞品车急加速进气噪声,对获取的声音样本采用等级评分法进行主观评价与典型声品质客观参量的计算。利用相关分析与主成分分析对获取的主客观指标的关联性进行研究,并分别以相关分析和主成分分析结果为输入建立反向传播(Back Propagation,BP)神经网络模型。分析结果表明:客观参量存在信息的重叠时,主成分分析能够更好地反映声音样本指标间的关联性,实现简化神经网络输入并保证预测精度的效果。
在大数据规模下,基于深度学习的语音识别技术已经相当成熟,但在小样本资源下,由于特征信息的关联性有限,模型的上下文信息建模能力不足从而导致识别率不高。针对此问题,提出了一种嵌入注意力机制层(Attention Mechanism)的时延神经网络(Time Delay Neural Network,TDNN)结合长短时记忆递归(Long Short Term Memory,LSTM)神经网络的时序预测声学模型,即TLSTM-Attention,有效地融合了具有重要信息的粗细粒度特征以提高上下文信息建模能力。通
为得到吸声材料的吸声系数,提出了一种基于Virtual.Lab Acoustics平台的阻抗管模拟方法,建立阻抗管和试件的声学模型,提取声学计算得到的传声器测点处的复声压,然后基于传声器间距、传声器与试件距离,得到传声器测点位置的传递函数及吸声系数。将该方法的计算结果与文献值进行对比,验证了文中传递函数及吸声系数计算方法的正确性。通过仿真分析了阻抗管直径、传声器测点位置对计算吸声系数的影响,说明传声器测点位置可极大影响计算的吸声系数。对阻抗管内试件倾斜角度、试件厚度和试件后侧空气柱等对吸声系数的影响进行了
超声波流量计在中低压燃气测量领域中,由于燃气压力小、流量变化大、流速低等因素会导致其测量精度低。针对以上问题,设计两种不同的基表结构,通过流体动力学仿真计算,获得了两种基表结构在不同流量点的流场分布,通过对超声波传播路径区域的流场速度的大小和分布均匀性分析,确定更为合理的测量管路结构。最后通过设计相关实验,验证了流场仿真分析的合理性。
为了改变传统赫谢尔·昆克(Herschel-Quincke,HQ)管在降噪频率上的单一性,使其能在复杂噪声环境下灵活调节降噪频率。设计了一种加装球阀的可调频HQ管,利用球阀的旋转调节HQ管内的横截面积,通过管内的阻抗改变来调节整个装置的固有频率,最终达到可以灵活调节降噪频率的目的。推导出了可调频HQ管内的阻抗理论模型,从而得到可调频HQ管的频率范围,并利用COMSOL仿真计算得到其传声损失来检验其消声性能。通过实验结果与仿真结果进行对比验证,证明了结果的准确性,在实验数据和仿真数据中发现,开口面积的对数与
为研究便捷、安全、无电离辐射的骨折检测方法,提出了超声双层折射修正全聚焦算法。首先从信号处理入手,通过回波信号与标准发射信号进行互相关计算,得出噪声含量极低的回波信号。继而利用Filed-Ⅱ裂纹仿真实验验证全聚焦成像对均匀介质检测的可行性,仿真结果显示裂纹宽度平均相对误差为5.60%;最后对离体牛胫骨进行全矩阵数据采集,并分别使用传统全聚焦算法和双层折射修正全聚焦算法对贯通骨折裂纹成像,前者的裂纹平均相对误差为8.33%,但不能显示骨板厚度,而后者不仅可以清晰地显示出裂纹的宽度(相对误差为6.98%),并