论文部分内容阅读
语音情感识别旨在使用计算机技术来分析说话人的情感状态及变化,进而确定其内心情绪状态或变化,最终实现人机之间更自然、更和谐的交互过程。经过十几年的研究与发展,语音情感识别已经取得了许多突破性的研究成果,有着广泛的应用前景。首先,本文将基于稀疏表示的非监督学习算法应用于语音情感特征学习,由于在非监督学习过程中使用的数据不带类别标签,不需要昂贵的代价去获取类别标签,因此与传统的人工标注类别并根据先验知识提取特征的方法相比,有着巨大的优势。其次,本文对现有稀疏表示识别方法进行研究和分析,对用于稀疏表示识别的字典学习模型进行改进,以求获得更高的识别精度。最后,本文实现了基于稀疏表示的语音情感特征学习与识别原型系统。具体研究内容和成果列举如下: (1)基于稀疏表示的语音情感特征学习方法。到目前为止,语音情感识别所提取的特征大多都是基于韵律特征及其衍生的参数,到底何种特征能够较好的反映情感信息还没有一个明确的结论,这使得根据人工先验知识提取情感特征的方式遇到了瓶颈。本文将基于稀疏表示的非监督学习算法(包括:稀疏自动编码器、稀疏玻尔兹曼机、K-均值聚类)用于语音情感特征学习,旨在从大量无标签的语音情感数据中学习到有区分度的语音情感特征表示,而不需要像提取传统语音情感特征那样需要大量的先验知识和昂贵的类别标注代价。提出基于稀疏表示的语音情感特征学习框架,从大量的底层特征中自动学习到体现类别可区分性的语音情感特征,并对学习得到的特征进行可视化。实验结果显示:基于稀疏表示的语音情感特征学习方法学习得到的特征表示比传统情感特征的识别率高1%~7%,而且K-均值聚类方法得到特征表示的识别率要比其他两种特征学习方法高1%~14%。 (2)联合惩罚字典学习的稀疏表示语音情感识别方法。最近,稀疏表示识别方法在图像和语音信号的识别任务中获得了较高的识别率,并且对有遮挡的图片和有环境噪音的语音信号有较好的的鲁棒性。本文将基于字典学习的稀疏表示识别方法应用于语音情感识别,提出联合惩罚字典学习模型及相应的识别准则,给出该字典学习模型的优化算法,最后给出联合惩罚字典学习的稀疏表示语音情感识别方法,并和其他字典学习方法的识别结果进行比较。实验结果表明,本文提出的SCECDL(Sub-coding and Entire-coding JointlyPenalty based Dictionary Learning)方法比其他字典学习方法识别率高1%~8%,比常用的语音情感识别方法SVM高4%~9%。 (3)基于稀疏表示的语音情感特征学习与识别原型系统设计与实现。针对上述提出的基于稀疏表示的语音情感特征学习方法和联合惩罚字典学习的稀疏表示语音情感识别方法,在Matlab2012a环境下开发了该原型系统。该原型系统主要包括情感语音库的选择、语音信号预处理、语音情感特征提取、字典学习和稀疏表示识别五个功能。