论文部分内容阅读
近年来,计算机与互联网引领了整个世界的发展潮流,在这个信息爆炸的大数据时代,每天来自各个领域的音频文件不计其数,语音识别技术也随之越来越受到学术研究和工业生产的青睐。然而在语音识别的过程中难免会遇到在一段语音中包含有不止一个说话人的音频文件,也难免会有带有不同口音的说话人声音存在,这两种客观问题的存在势必会影响语音识别的效果,很大程度上降低了识别系统的性能。因此本文针对这两个问题展开研究和讨论。本文首先提出一种基于美尔频率倒普参数(Mel-Frequency Cepstral Coefficients,MFCC)和语谱图(SPECTROGRAM)的融合特征MFCC_SPECTROGRAM。由于人耳对声音的感知系统是一种特殊的非线性系统,美尔频率倒普参数就是从人耳听觉角度出发着重描述语音信号的隐含特征,而语谱图则是从人体对语音信号的生成系统角度出发着重描述语音信号的本质特征,本文结合MFCC和SPECTROGRAM两种特征各自带有的特性,提出MFCC_SPECTROGRAM语音融合特征参数,作为后续语音研究的基础特征。其次本文引入CALL-CENTER概念,并针对CALL-CENTER环境下客观存在且具有一定特殊性的大量语音数据作以描述与介绍。本文CALL-CENTER环境下的语音录音文件一般都包含两个说话人的声音,并且会有两种口音的出现,一种是普通话,另一种是四川话。本文针对包含两个说话人的对话语音提出一种融合特征下基于卷积神经网络的说话人语音分割模型。使用融合特征来表示说话人的语音信号特征,作为卷积神经网络的输入,对话者语音特征进行训练得到可作为话者语音标记分割的训练模型。并通过实验对比,结果证明在相同特征下基于卷积神经网络的说话人语音分割算法效果高于传统的贝叶斯距离分割算法,在本文提出的基于卷积神经网络的说话人语音分割模型下,MFCC_SPECTROGRAM融合特征作为语音特征得到的分割结果高于单独的以MFCC或者SPECTROGRAM语音特征所得到的分割结果。最后本文针对CALL-CENTER环境下的语音录音文件包含不同口音的现象提出基于加权多特征融合的不同口音自动分类方法,同时提出不同口音对话自适应识别研究。根据得到的话者切分标记以及不同口音的分类标记自动调用语音识别系统进行自动识别。为了验证本文所提出的方法与模型的可行性和有效性,引入中国著名企业科大讯飞的语音识别开放系统,通过一系列相关实验对比,结果表明在一段含有不同口音的对话语音录音中,对不同话者的语音进行切分后所得到识别结果高于原始语音的识别效果;对不同口音的语音进行分类,并调用相应的不同的语音识别的接口所得到的语音识别效果高于原始语音的识别效果,结果证明本文所提出的方法和模型具有一定的研究意义和实用价值。