论文部分内容阅读
近年来,随着信号处理、人工智能、互联网等技术的蓬勃发展,各类多媒体应用逐步融入人们生活的方方面面。图像、视频等相关技术相继被应用于实际场景,如人脸识别、指纹识别、视频事件检测、3D电影等,使人们的生活变得日益丰富多彩。语音处理的相关技术则明显滞后,尤其是语音的个性特征方面。这主要源于语音信号的数据量巨大,且极不平稳,难于建模。语音处理技术越来越受到重视,国内外众多学者发表了大量相关方面的研究成果,但目前能应用于实际,并且取得很好效果的应用寥寥无几,还有待进一步的研究。本文阐述了语音信号处理方面的相关技术,着重对语音个性特征的提取、建模、识别、转化等方面进行了研究。提出了一系列改进方法和创新方法,主要包括以下几个方面:1)提出一种高精度、大尺度、抗噪声干扰的语音基频校正方法,实验表明该方法在大尺度预估偏差、强噪声干扰下能有效地校正基频轨迹;另外还提出一种改进的抗周期干扰与短时平稳性的语音谱提取方法,截取较短的时域信号时即可获得平稳的谱序列。2)利用高斯混合模型GMM对语音参数进行概率分布建模,并提出了一种基于GMM比重矢量距离的特征识别方法;另外挖掘出谱包络残差、基频抖动谱这两个语音个性特征,并建立相应的模型,用于综合识别,实验表明这一系列方法可使得识别的平均正确率达到90%以上。3)提出了一种基于GMM立建模、联合匹配的转化方法,用于语音谱包络、基频轨迹的转化,极大降低了训练、转化的计算复杂度;并且利用该原理,实现了一套语音个性特征转化系统,取得了很好的转化效果。