论文部分内容阅读
自动语音识别技术经过60多年的研究和开发,取得了很大进展。目前,英语、汉语等大语言的语音识别技术逐步成熟,开始进入商用阶段。维吾尔语语音识别研究在近几年才得到重视,在研究过程中主要借鉴大语言中成熟的语音识别技术。但是维吾尔语的语言特点不同于英语、汉语,因此在维吾尔语语音识别研究中,仍存在很多问题亟待解决。
维吾尔语是一种粘着语。最主要的特点是词具有丰富的形态变化,既导致语音识别系统要处理的词汇量急剧增长,也产生了大量的未登录词(Out of Vocabulary words,OOV词)。这给维吾尔语语音识别研究带来了极大的挑战,采用何种策略处理这个难题,是一个重要的研究课题。除此之外,在词的形态变化过程中,存在着元音弱化、脱落、增音等语音现象。这些语音现象对语音识别的性能产生了一定的影响,因此,有必要研究这些语音现象的处理方法。
针对上述难题,本文重点关注维吾尔语的形态变化系统,研究了维吾尔语词切分算法,研究了基于子字单元的维吾尔语语音识别系统,同时研究了对元音弱化、脱落、增音等语音现象进行建模的方法。
本文的主要工作包括以下几个方面:
1.维吾尔语语音识别研究中的OOV问题
维吾尔语的形态变化导致语音识别研究面临严重的OOV问题。为了定量研究OOV问题对维吾尔语语音识别系统识别性能的影响,本文提出了一种基于三音素的最佳文本挑选算法,通过算法来控制测试集OOV比率,建立不同的测试集。使用Python语言实现了本文提出的算法,将其应用于一个电话语音库的文本转写,构建了维吾尔语电话语音库。实验结果表明当测试集OOV比率较高时,能降低测试集OOV比率的技术才能有效的提高语音识别系统的识别性能。
2.维吾尔语词切分算法
词切分算法研究是维吾尔语自然语言处理研究的基础工作。本文研究了维吾尔语中词的形态变化,描述了词干和词缀在组合成词时需要遵循的词法规则。通过收集词干库和词缀库,实现了基于规则的维吾尔语词切分算法,并提出了一种规则和统计相结合的维吾尔语词切分算法。该算法保留了基于规则的词切分算法的优点,同时可以对未登录词进行切分处理。实验结果表明该算法具有最好的词切分性能。
3.基于子字单元的维吾尔语语音识别研究维吾尔语具有丰富的形态变化,产生了大量的OOV词,给维吾尔语语音识别研究带来了巨大的挑战。针对该问题,本文研究并构建了基于子字单元的维吾尔语语音识别系统。在基于子字的语音识别实验中,采用不同的词切分算法来生成子字序列,对比了不同子字单元在语音识别中的性能。
4.在语音识别中对语音现象进行建模处理在维吾尔语中,当在一个词上添加特定的词缀时,会发生元音弱化、脱落、增音等语音现象。本文对这些语音现象进行了研究,提出了一种在语音识别中对这些语音现象进行建模的方法。该方法使用基于规则的词切分算法来识别这些语音现象,生成变形词干库,然后使用变形词干库,生成多发音字典对这些语音现象进行建模处理。实验结果表明该方法有效的提高了语音识别系统对识别单元的识别率。