论文部分内容阅读
语音信号既包含了说话人的语义信息,又包含了说话人的个性信息,人们从中可以提取说话人的性别、年龄、籍贯等身份信息。说话人识别是根据语音信号中反映说话人的语音参数自动确定说话人身份的技术。作为一种生物认证技术,在信息检索、公安破案、语音身份验证、电话银行等领域具有重要的应用价值和广泛的应用前景。论文从数据采集到特征提取和分类识别进行了系统研究,取得了下列创新性成果。1、建立一个汉语方言语音数据库参照国际上语音语料库的设计标准,考虑录音通道、方言种类、话者年龄与性别分布的选择。最终建立起一个涵盖了闽、粤、吴、湘、北方、赣、客家等七种地方方言和普通话的汉语方言语音数据库。包括宽带语音(麦克风)和窄带语音(手机、固定电话),106小时的语音数据。2、提出一种基于码本模型的性别辨识方法首次在性别识别研究中引入半监督聚类技术,利用半监督学习的思想对汉语方言的语音数据进行矢量量化,形成具有监督信息的男、女性别码本的模型。该方法充分考虑了语音特征空间的概率分布状态,优化了码本的生成方法,提高了码本模型的精确度,解决了传统矢量量化算法中码本生成精度低的问题,有效提高了系统的识别效果。实验结果表明,在有噪语音和纯净语音环境下与传统矢量量化算法比较,在识别精度、系统稳定性鲁棒性等方面都明显提高。3、改进混合SVM的说话人识别方法SVM以结构风险最小化为准则,类别区分能力强,输出结果反映了异类样本间的差异性,适用于处理连续输入向量下的分类问题。为此,我们改进了应用于说话人识别的混合SVM模型识别系统。该方法在将大样本数据进行分割和聚类的基础上,为每一类样本语音都构造一个SVM进行训练,并综合所有的SVM输出结果进行决策分类。较好的解决因话者数量增加和语音数据规模过大带来的系统时间代价过大、识别效率低下的问题,有效地提高了话者识别系统的分类决策能力。4、建立了分层话者识别系统目前说话人识别难以大量数据下系统的实时应用,随着语音数据库规模的不断扩大,依据现有技术,系统在识别时间、内存需求及识别精度等方面都难以满足实时辨识的需求。论文讨论了MFCC、SDC等几种不同特征在识别系统中的表现,并依据分类搜索的思想,利用方言辨识、性别辨识等技术,缩小说话人识别中的数量和范围,再使用话者识别技术进行辨识,最终确定每一位说话人的身份,努力寻求建立一个最优的说话人识别系统模型。