论文部分内容阅读
病态嗓音识别对在医学上实现无痛嗓音检查、无损伤化技术有着十分重要的意义。病态嗓音识别率的提高取决于有效的特征提取和合理的识别方法。鉴于传统的语音声学参数主要基于语音的短时平稳性,采用加窗傅立叶变换求取,本文尝试采用希尔伯特黄变换(Hilbert-Huang Transform ,简称HHT)提取病态嗓音的新特征参数:瞬时能量-瞬时频率标准差参数(简称A-f标准差参数),并使用基于时变信息状态变化的HMM(隐马尔可夫模型)识别方法以验证A-f标准差参数的有效性。本文讨论和研究了经验模态分解(EMD)的一些关键的问题,并在Matlab平台下实现了EMD及其相关的应用程序,通过仿真数据分析,结果表明HHT变换比传统信号处理方法具有更高的时频定位特性。同时对HHT变换存在的问题提出可行的改进方法。在研读相关资料基础上,根据各种常用的声学参数对病态嗓音辨识准确度的贡献不同,从病态嗓音的能量和频率的变化着手,重点研究病态嗓音在频率和幅度上的扰动与微扰参数显著高于正常嗓音的特性。结合嗓音的非平稳非线性特点,利用HHT变换的高时频分辨率以及经验模态分解(EMD)的滤波器组特性,总结出提取A-f标准差特征参数的详细算法并编程实现。为证明A-f标准差参数的有效性,作者还自行设计基于离散隐含马尔可夫模型(DHMM)算法的识别系统,并用实验的方法确定识别系统的各项参数最佳选取,包括选择矢量量化中的码本容量和DHMM模型的结构类型、状态转移数等。利用识别系统分别对从正常/病态嗓音中提取的MFCC系数与A-f标准差参数进行识别。识别结果验证了A-f标准差特征参数的有效性。同时由两种特征提取的算法,深入分析A-f标准差特征参数更适合于反映病态嗓音内在机理的原因。文章最后总结了整个论文主要进行的工作,指出本课题现用方法与数据采集的局限性,并对进一步的工作提出一些建议。