论文部分内容阅读
重音是一种重要的韵律特征,在目前比较常用的汉语重音检测方法中,根据特征大致可以分为三类,一类是基于声学特征的检测方法;另一类是基于语法特征的检测方法;还有一类是融合声学特征和语法特征的检测方法。这三类重音检测方法作为某些语音系统的关键技术已经广泛应用于实际生活中。由于实际生活中存在很多噪声,使得应用效果不太理想。本文在现有汉语重音检测方法基础上,依据特征种类对汉语重音检测方法的影响,从基于上下文声学特征、基于感觉加权线性预测(Perceptual Linear Predictive,PLP)子段拼接短时谱特征、基于Mel倒谱频率系数(Mel Frequency Cepstral Coefficients,MFCC)子段拼接短时谱特征和融合各类优选特征四个层面上展开了汉语重音检测方法的研究工作。基于上下文声学特征的汉语重音检测方法。汉字的重音强度很容易受到周围汉字的影响,故本论文为每个被测汉字选取了八种不同上下文窗口,由基频、音强、能量、时长及其八类上下文窗口特征组成实验所需的特征集。基于PLP子段拼接短时谱特征和MFCC子段拼接短时谱特征的汉语重音检测方法。子段拼接短时谱技术把一个汉字的语音帧平均分为若干个子段,提取每个子段的相关语音特征。基于PLP和MFCC子段拼接短时谱特征重音检测方法把一个汉字的语音帧平均分成1到20个子段,然后提取每个子段的最大值、最小值和平均值。融合优选特征的汉语重音检测方法。本论文介绍了一种特征筛选算法,包括4个基本步骤:子集产生、子集评价、停止条件和结果验证。本文把不同的优选特征融合在一起,包括声学特征和PLP短时谱特征的融合、声学特征和MFCC短时谱特征的融合、MFCC短时谱特征和PLP短时谱特征的融合以及声学特征和短时谱特征的融合。在噪声环境下,融合声学特征和短时谱特征的汉语重音检测正确率最高能达到88.3%。