论文部分内容阅读
病态嗓音识别是计算机技术在医学领域的渗透与发展,这将为临床实现无痛、无损伤化检查和客观的诊断作出重要的贡献。由于嗓音的复杂性,基于声学参数的病态嗓音检查不能仅凭一个或几个参数作出诊断,最终也无法摆脱医生的经验进行主观判断。为了真正实现客观的检测,许多研究者已经作了大量的工作,在病态嗓音的智能识别和客观评价方向上作出了重大的贡献,但目前的结果离真正的进入临床应用还存在一定的距离。本文在前人工作的基础上,研究了基于小波变换和高斯混合模型(GMM)的病态嗓音识别系统。从嗓音的发音机理、病态嗓音与正常嗓音在频域的表现差异,利用小波变换对信号进行分解,突出病态嗓音的特点,本文提出了基于多尺度分析的小波降噪、分解的熵系数(Entropy Coefficient Based on De-noise ,Decomposition of Multi-scale Analysis, ECDDMA)作为模型识别的特征矢量集,运用GMM模型实现了正常与病态嗓音识别。本文数据库242例正常嗓音和234例病态嗓音,其中病态嗓音样本全部来自临床,随机各选取80例作为训练集,剩余的作为测试集。详细介绍了小波变换和小波降噪的基本理论,并得到了ECDDMA系数的提取过程及算法。实验结果表明:ECDDMA系数较传统的模拟人耳听觉非线性特性的MFCC及其动态特征更有利于正常与病态嗓音的识别,并得到了好的识别结果。并通过实验分析了特征提取过程中去噪的必要性、模型混合数的选取对识别性能的影响、小波分解层数选取对识别性能的影响等问题。由于ECDDMA系数的提取是对语音的整个频域进行分析的,因此存在部分特征对识别率的提高没有作用,反而会使识别性能下降,使运算复杂,因此有必要进行特征选择,选出有效的特征来构建模型,提高识别性能。本文对传统穷举法与基于神经网络特征选择法进行了比较,实验表明基于穷举法的特征选择对于维数较多的特征矢量是不实用的,也证明了基于神经网络特征选择的优越性,本文最后使用神经网络方法从(ECDDMA系数+能量特征)22维原始特征中选取出了一组7维的特征矢量,并取得了较好的识别性能。对比分析了声学参数与ECDDMA系数病态嗓音识别性能,尝试了不同的特征组合特征选择后的识别性能,实验结果显示了ECDDMA系数较声学参数在计算机病态嗓音自动识别方面的优越性。