论文部分内容阅读
本文是语音信号处理中的基础性研究课题。本文研究主要包括两部分,第一部分是对语音表示模型及相关问题的研究;第二部分是序列分类算法及其在语音情感分类识别中的研究。
语音表示模型的研究和语音情感分类的研究都具有重大的实际意义。
语音信号的模型化、参数化表示是语音处理各个领域的基石。一个适当的语音表示模型能够提高语音编码器、语音识别系统和语音合成系统的有效性。现有的语音表示模型各有优缺点,对语音表示模型进行深入的思考和研究,汲取优点克服缺点,有助于提高语音应用系统的有用性。
语音的情感研究是语音处理领域的一个前沿研究方向。语音情感的分析能够为自动语音识别系统,语音合成系统和说话人认证系统提供有用的信息。语音的情感分类研究是语音情感分析的重要研究方法和途径。有效的语音情感分类识别系统能够辅助自动语音识别系统,提高对情感语音的识别率;语音情感聚类分析能够为语音合成系统提供必要信息用以合成带有情感的语音信号。
在语音表示模型的研究中,我们创新地提出一种线性预测和正弦+噪声联合表示语音的方法。这是作者对前人研究成果的综合性、总结性创新。在这个模型中,我们使用线性预测参数来表示浊音语音的声道特征,使用正弦+噪声模型来表示线性预测残差信号,即声门激励信号,和类似噪音的语音清音信号。这种模型克服了线性预测模型没有参数化表示激励信号的缺点,也克服了线性预测模型在表示清音信号时不符合理论模型的缺点。它融合了经典的线性预测模型和正弦+噪声模型的优点,通过独立的模型参数表示相应的语音特征,是一种对语音信号既完整又简洁的表示模型。
我们研究了模型表示的两个相关问题:噪声环境下的语音线性预测参数估计,高频率分辨度的激励信号正弦参数提取方法。
在噪声环境下的语音线性预测参数估计研究中,我们创新地提出了一种在离散高斯—马尔柯夫噪声下的语音信号线性预测参数的计算方法。噪声下线性预测模型系数的估计是信号处理中一个经典的难题。现有的方法主要针对白噪声而设计。而很多实际噪声,例如行驶车辆里的噪声、高速路噪声等,具有高斯—马尔柯夫噪声的属性,即自相关函数指数衰减。在新算法中,我们根据离散高斯—马尔柯夫自相关函数的特点,对噪声补偿尤里沃克方程做出相应调整。求解过程引入了基于矩阵二次特征值求解的方法。我们提出在挑选特征值时加入系统极点位置判断的方法,来保证求解系统的稳定性。
对于激励信号的正弦模型参数,我们提出使用基于子空间的线频谱估计方法来进行提取。经典的正弦+噪声模型采用时频变换的方法来提取正弦分量的参数。时频变换的频率分辨率有限,而且加窗分析产生频谱干扰。为了克服传统基于时频变换的正弦模型参数提取的缺点,我们使用子空间方法来提取正弦频率参数,并通过最小方差的方法进一步提取相位和幅度参数。这种方法有超高的频率分辨率,能使模型参数的提取更为准确、合成音质更好。
在混合表示模型的框架上,我们提出一种高质量的语音特征修改方法。这种方法中,我们通过修改线谱频率来修改语音的声管特征,通过修改激励信号的正弦频率和相位参数来修改语音的基音频率。而语音时长特征的修改则通过改变激励正弦相位参数和合成时的帧与帧重叠长度来实现。这种方法在修改特定语音特征的时候能保持其他特征不被改动,可以实现高音质的特征修改合成语音。
在基于序列的语音情感分类识别研究中,我们以新的模型为基础提取语音特征参数,以序列分类和聚类方法为主要工具来进行研究。在研究中,我们引入了序列分类、聚类的方法,并对相关算法进行相应的、卓有成效的改进和完善。
我们将序列GMM分类方法应用到语音情感分类和识别中。根据语音序列和分类的特点,我们创新地提出了观测值次序均衡的评分方法,并在次序均衡中引入了功能因子,以满足多元的分类要求。GMM的序列分类方法在GMM模型的基础上对序列进行评分,并根据模型参数将评分映射到评分空间,最后使用支持向量机等分类器进行分类。在现有的序列GMM分类方法中,序列评分方法没有体现语音序列的顺序和时长伸缩差异。我们提出了次序均衡的方法来克服这些缺点。实验结果证明,改进的序列GMM方法在语音情感分类识别中正确率得到了明显的提高,并远优于传统的以帧为基本分类单位的分类方法。
在语音情感分类的研究中,我们还创新地引入基于矩阵的分类思想和方法。基于矩阵的序列分类方法的核心思想是通过序列到矩阵的映射,以矩阵来表示特征序列,从而将序列的分类转化为矩阵的分类。针对语音序列分类,我们提出了有限平均映射、时长无关映射和时长相关映射的序列到矩阵映射方法,并提出模型层面的特征融合方法。在语音的情感分类实验中,基于矩阵的改进序列分类方法的分类正确率比经典的基于支持向量机的语音情感分类方法提高了28.65%。
最后我们应用改进的矩阵序列分类方法,对情感语音的声道时变特征进行深入的分析。