论文部分内容阅读
语音识别已经得到突破性进展和广泛的应用,随着语音识别的发展不断提出新的需求,首先声学参数与发音人的自然属性相关,其次对声学参数的计算依赖大规模的语料资源,同时,语种识别,说话人识别,语音可视化,语音自动化标注,仍然需要投入更多的工作进行研究。维吾尔语由32个音素组成,同时音素是基本的语音单位,正确的识别出音素是实现连续语流语音识别的重要基础,本文分析语谱图像呈现的语音学发音特征,将图像处理的算法进行改进并应用语音信号图像特征的提取过程中;应用模糊模式识别的技术,建立音素的概率分布函数,实现音素识别;应用人工智能的计算方法实现按照语音学发音特征进行分类。本文的具体工作如下:1)关于对语谱特征研究,在多年前就已经得到了关注,本文首先研究、对比前人相关的工作后,尝试应用语音识别的新思路与新方法,在不考虑发音人的自然属性、不考虑常用的语音声学特征参数、应用可以观察到的图像特征实现语音识别是本文区别于前人工作的方法创新,特征提取的过程别具一格,为语音识别的发展提供了新思路。2)利用倒谱分析方法描绘维吾尔语音素的语谱特征,介绍不同的语音学发音方式在语谱特征中的特征体现,对比相关的语音学发音特征。3)应用转化为二值特征的方法将音素的语音语谱图中的图像特征进行增强并滤除图像中的冗余信息;为了提高二值化特征的细节描述效果,提取语谱图的边界特征并与二值特征进行小波图像融合得到特征矩阵,为了降低高维度图像造成的计算复杂度高的问题,小波变换图像压缩的方法被应用于对特征矩阵降低维度,形成低阶特征矩阵并预处理成为特征向量。4)通过数学形态学分析维吾尔语音素的特征矩阵中的特征形态,以图像膨胀运算确定特征中的核心点覆盖率作为概率分布函数,利用基于模糊理论为基础的近似模式识别计算音素特征矩阵的近似度;实验中,在单音素环境下识别的正确率达到77.5%,效果得到提升;在连续语流中识别音素,引入划分音素的过程,在含有20至30个音素的连续语流的句子中,识别速率约为50 phonemes/min,划分的丢失率约为5%,正确识别率约为62%。5)构造BP神经网络,将特征矩阵预处理得到特征向量,实现按照语音学发音特征对维吾尔语的音素进行分类,分类实验结果以混淆矩阵解析,类别区分的效果明显。6)建立图形用户界面,将本文的工作整合为易于操作的可运行的桌面应用程序,包括单音素和连续语流的识别效果,配置开发环境,充分利用计算机的硬件资源,提高系统的效率。