【摘 要】
:
为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。采用帧级语音特征代替传统统计特征以保留原始语音中
【机 构】
:
复旦大学计算机科学技术学院,东南大学信息科学工程学院,南京工程学院信息与通信工程学院
【基金项目】
:
国家自然科学基金(61673108)
论文部分内容阅读
为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。采用帧级语音特征代替传统统计特征以保留原始语音中的时序关系,通过引入注意力机制将传统遗忘门和输入门转换为注意力门,并根据自定义的深度策略计算得到深度注意力门,从而提高语音情感识别性能。实验结果表明,在Fau Aibo儿童情感数据语料库及婴儿哭声情感需求数据库上,该模型在召回率和F1分数上相比基于传统LSTM的识别模型分别提高了3.14%、5.50%和1.84%、5.49%,在CASIA中文
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
实时策略游戏的微操是指操纵多个作战单元以赢得胜利,针对传统搜索方法在面对大规模战斗场景时存在的搜索效率低下、搜索空间有限等问题,提出深度学习与在线搜索相结合的方法
IP溯源是追踪攻击者源头的主要方法,工业控制系统(ICS)需要精确的IP溯源以提高其防护能力。现有IP溯源方法存在开销大、恶意IP所属组织识别效率低的问题。为此,通过采集和分
针对复杂交通场景中的小尺度车辆检测问题,提出改进的YOLOv3目标检测方法(S-YOLOv3)。使用ResNet网络优化YOLOv3的Darknet-53特征提取结构,采用特征金字塔网络获取目标的4个尺度特征以融合浅层特征和深层特征信息,并根据检测目标的大小调整损失函数的影响权重,从而增强小目标及相互遮挡物体的检测效果。在KITTI数据集上的实验结果表明,S-YOLOv3方法的检测速度和平均精度均