论文部分内容阅读
语音不仅传达着语义信息而且也传达着情感信息。计算机使它的使用者能够通过自然的交互,高效高质量地完成既定的任务。随着语音情感挖掘工作的不断发展,对社会服务、医学、安全、工业控制等相关领域都有实际的应用,但是由于情感定义的不确定性和缺乏统一的建立标准的数据库以及情感特征的模糊性,使得语音情感识别技术成为了一个难题,还存在许多有待攻克的难关。为了解决语音情感识别中识别率不高和还不能做到迁移学习且鲁棒性较差等难题,本文进行以下几方面的改进:
1.提出改进的MFCC特征,EEMFCC和F0MFCC。将韵律特征和谱特征结合,提取改进的MFCC特征。实验中应用改进的MFCC特征,EEMFCC和F0MFCC与传统特征的组合特征,采用SVM为识别方法,在EMODB库上得到85.59%的识别率,比没加入这两种改进的MFCC特征增加了2.68%,在EMODB库上得到的识别效果良好。但由于组合特征的融合特征冗余性高,时效性不好,而且从实验结果来看,‘快乐’识别率并不是很高,最高识别率为54.17%,实验并没有有效提高‘快乐’的情感识别率,所以实验选用的特征仍然存在不足之处,特征的有效性和鲁棒性仍然有改进的空间,所以本文还进行了特征的优选实验。
2.针对‘快乐’情感识别率低和特征冗余性高的问题,希望通过选择合适的特征组合来提高识别率。用BP算法进行特征选择,实验中为了挑选出对网络贡献较大的特征,通过对输入节点信号变化的敏感度来度量特征的重要性。选取出有效没有冗余的特征送入到分类器里。实验中应用经过特征优选后的特征,采用SVM为识别方法,在EMODB库上得到85.66%的识别率。通过BP特征选择算法,进行特征优化,降低了特征的冗余性,仅应用8个特征就达到略优于前一节的组合特征的识别结果,提高了识别效率,在传统识别算法里取得良好的识别效果,说明该组特征的有效性。但从实验结果来看,‘快乐’识别率仍然为54.17%,特征优化实验没能改善‘快乐’情感的识别率。EMODB库的混淆矩阵‘快乐’类情感都偏低,其和‘愤怒’高混,由于其言语表达速度快,音调表现力强,力度强等原因。所以实验选用的分类算法还是存在不足,要引入更适合语音情感识别领域的分类算法,进一步引入多输出BLSTM网络模型,以此来获得更好的识别结果和更好的鲁棒性可迁移性。
3.由于LSTM结构充分利用了语音的时序信息,同时通过双向LSTM,即BLSTM反向时序信息也被提取出来。而且从ResNet的跨层连接得到启发,考虑到LSTM不同层都有输出,如果结合在一起,特征能更充分的利用。输出BLSTM多层信息,BLSTM的每一层特征相加融合,实际上是用低层网络信息补充高层网络信息,以此达到良好的识别结果。在特征优化的基础上,提取111维70帧/段的段特征,应用多输出BLSTM网络模型,得到良好的识别效果。即在特征优化的基础上,应用111维70帧/段的段特征和三层六输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率,识别效果良好,本文在EMODB库的识别率与目前最前沿的研究成果处于相当水平。并在多库和混库上验证优选特征和分类模型的有效性和鲁棒性。
1.提出改进的MFCC特征,EEMFCC和F0MFCC。将韵律特征和谱特征结合,提取改进的MFCC特征。实验中应用改进的MFCC特征,EEMFCC和F0MFCC与传统特征的组合特征,采用SVM为识别方法,在EMODB库上得到85.59%的识别率,比没加入这两种改进的MFCC特征增加了2.68%,在EMODB库上得到的识别效果良好。但由于组合特征的融合特征冗余性高,时效性不好,而且从实验结果来看,‘快乐’识别率并不是很高,最高识别率为54.17%,实验并没有有效提高‘快乐’的情感识别率,所以实验选用的特征仍然存在不足之处,特征的有效性和鲁棒性仍然有改进的空间,所以本文还进行了特征的优选实验。
2.针对‘快乐’情感识别率低和特征冗余性高的问题,希望通过选择合适的特征组合来提高识别率。用BP算法进行特征选择,实验中为了挑选出对网络贡献较大的特征,通过对输入节点信号变化的敏感度来度量特征的重要性。选取出有效没有冗余的特征送入到分类器里。实验中应用经过特征优选后的特征,采用SVM为识别方法,在EMODB库上得到85.66%的识别率。通过BP特征选择算法,进行特征优化,降低了特征的冗余性,仅应用8个特征就达到略优于前一节的组合特征的识别结果,提高了识别效率,在传统识别算法里取得良好的识别效果,说明该组特征的有效性。但从实验结果来看,‘快乐’识别率仍然为54.17%,特征优化实验没能改善‘快乐’情感的识别率。EMODB库的混淆矩阵‘快乐’类情感都偏低,其和‘愤怒’高混,由于其言语表达速度快,音调表现力强,力度强等原因。所以实验选用的分类算法还是存在不足,要引入更适合语音情感识别领域的分类算法,进一步引入多输出BLSTM网络模型,以此来获得更好的识别结果和更好的鲁棒性可迁移性。
3.由于LSTM结构充分利用了语音的时序信息,同时通过双向LSTM,即BLSTM反向时序信息也被提取出来。而且从ResNet的跨层连接得到启发,考虑到LSTM不同层都有输出,如果结合在一起,特征能更充分的利用。输出BLSTM多层信息,BLSTM的每一层特征相加融合,实际上是用低层网络信息补充高层网络信息,以此达到良好的识别结果。在特征优化的基础上,提取111维70帧/段的段特征,应用多输出BLSTM网络模型,得到良好的识别效果。即在特征优化的基础上,应用111维70帧/段的段特征和三层六输出BLSTM的识别方法,在EMODB数据库上得到WA为91.17%,UA为89.79%的识别率,识别效果良好,本文在EMODB库的识别率与目前最前沿的研究成果处于相当水平。并在多库和混库上验证优选特征和分类模型的有效性和鲁棒性。