论文部分内容阅读
语种辨识是语音识别的一个重要研究方向。目前,大多数语音识别系统都是针对单个语种训练的,因此,如果面向未知语种或多语种语音,现有语音识别策略将会失去有效性。随着科学技术的高速发展,对多民族语种信息查询和民族语口语翻译等系统的需求越来越迫切,而在这些系统中对特定范围的民族语语种辨识技术的研究与应用显得尤为重要。但是,在语种辨识研究过程中存在着单一语种语音识别所不具有的困难与挑战,它涉及到在多语种语音空间中分析不同语种的差异性音频特征的问题,因此,在朝鲜语、汉语和英语等多语种框架下研究朝鲜语语种辨识问题与单语种语音识别具有同样重要的学术价值和实际意义。本学位论文基于朝鲜语特定音节和韵律特征提出了在多语种语音数据空间中辨识朝鲜语语音对象的方法。首先,根据朝鲜语语法形态特点,针对实际的朝鲜语文本文档内容统计分析得到在朝鲜语文档中经常出现的助词或词尾(语尾),并根据朝鲜语语音变化规则统计得出在朝鲜语语流中常出现的助词或词尾(语尾)的实际发音,将出现频率较高的前8个助词或词尾(语尾)的实际发音音节作为特定音节。采用时间规整网络结构算法规整特定音节的MFCC和LPCC特征,并利用维数统一的特征训练人工神经网络分类器,将该分类器作为特定音节基分类器。其次,提取基音频率、声音强度、共振峰、能量和发音速率等5种音频特征,并计算前4种特征对应的均值、变化范围、最大值、最小值和方差等统计量:选用基音频率和共振峰的统计量作为一组特征,声音强度、能量的统计量和发音速率作为另一组特征分别训练支持向量机基分类器SVMFF和SVM IER。最后,通过组合音节分类器、SVM_FF基分类器和SVM IER基分类器,采取少数服从多数的原则决策一个音频文件的语种是否为朝鲜语。实验结果表明,在朝鲜语、汉语和英语等3个语种构成的语音数据空间中,本文提出的基于特定音节和韵律特征的朝鲜语辨识方法获得了87.25%的识别率,有效地解决了多语种环境中朝鲜语语音检测问题,验证了本学位论文所提方法的合理性与有效性。