论文部分内容阅读
语言是人类获得信息的主要来源,也是人与人交流的最自然、最方便、最有效的工具。如今人们进入到一个信息社会,随着计算机科学技术的发展和全球合作的增加,语种识别技术成为了语音识别领域的一个新的研究热点并广泛应用于多语种信息服务和军事安全领域等方面。从上个世纪七十年代到现在,语种识别虽然只经历了几十年的发展,但识别方法己有很多种。虽然这些方法各有特点,但离实际应用要求还有一段距离。本文主要研究与文本无关和与说话人无关的语种识别方法,采用支持向量机作为分类器,探索提高识别率的方法。论文的主要工作有:(1)语种识别需要尽量消除同一语种内语音信号中个体发音人的差异,并且尽量找到语种间的声学特征的差异,才能达到好的识别效果。本文提取MFCC、LPCC、第一共振峰频率、基音频率、短时能量、韵律节奏等6种声学特征参数及其派生参数,用于语种识别,旨在找出最有效的语种识别特征参数集。(2)使用支持向量机作为分类器,分别设计并实现了单一特征单分类器和多特征单分类器语种识别系统,对来自两个不同语种识别数据库的汉、英、日、白和纳西语等5种语言进行语种识别实验,分别按男声、女声和混合声给出5种单一特征参数、4种特征组合的实验结果,并对实验结果进行详细分析。(3)在上述工作的基础上,采用多特征多分类器融合的思想,设计并实现新的语种识别系统。利用4种特征参数和两种支持向量机,构造8个分类器,然后分别采用多数投票法、加权平均法和决策模板法进行分类器融合,给出基于上述语音数据集的实验结果,以及完整的实验结果分析。实验结果表明,在本文所讨论的6种特征参数中,基音频率具有最好的识别性能;对于混合声,单一特征单分类器的最好识别率为60.20%;多特征单分类器的最好识别率为80.73%;而多特征多分类器融合的最好识别可达90.27%。