论文部分内容阅读
随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:语音合成、语音识别。语音识别是以语音为研究对象,是语音信号处理的一个重要研究方向,是实现人机通信的主要技术。在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学、民用诸方面有着广泛的应用。但由于汉语自身的特点,汉语的语音信息处理比西方语言更为困难和复杂,语音识别还存在许多困难,远远达不到实用化的要求。寻求新的语音识别算法,提高识别准确率是目前所要解决的问题。汉语是音节声调语言。声母、韵母和声调是汉语音节的三个主要属性。作为主要属性之一的声调携带着重要的辩义信息,是连续语音切分的有力手段,在连续语流中声调组合及其模式还是提高单词和单句识别率及语音理解必不可少的。声调对探讨具有汉语特色的新的语音识别方法有重要意义,对形成个人语音声调特征进行说话人识别也具有重要意义。因此,研究汉语的声调特征是具有普遍意义的。三字词中音节的声调特征更接近连续语音中音节的声调特征,本文就是要探讨一种有效的汉语连续语音三字词基音检测及声调识别方法。本文主要研究内容为两部分:基音提取和声调识别。基音提取的准确度极大的影响声调识别的准确率。本文主要研究基音频率的特性,提出了一种有效的基音提取算法。另外,本文在研究已有的声调识别方法的基础上,提出了一种新的声调识别算法。 本文首先介绍了语音识别技术的发展历史、语音识别的系统框架和目前语音识别技术的难点,以及声调识别技术的理论基础及现状。然后,本文重点研究所要探讨主要内容的理论算法,并提出新的算法:1.研究本课题关键技术之一:基音提取。基音提取是声调识别准确<WP=88>率提高的关键因素之一,准确的提取基音频率,尤其是较准确的提取三字词音节浊音段的频率是所要解决的问题。本文提出了一种音节分割方法,利用声母短时平均能量和短时过零率特性进行音节的有效分割。再结合自相关函数和平均幅度差函数法提取基音频率。实验证明这种方法取得了较好的效果。2.研究本课题关键技术之二:声调识别。本文利用基音提取的结果对已有的模糊声调识别算法进行研究,并提出了一种基于动态时间规整技术和改进的神经网络的声调识别算法。对不同的汉语词语,或不同人说相同的汉语词语时,其输入汉语语音词组信号的帧数不同,而大多数神经网络分类器的输入结构是固定的,我们利用动态时间规整技术提取固定长度的语音信号来解决这一难题。实验证明,这种方法取得了很好的效果。神经网络的设计是声调识别准确度提高的关键,我们将传统神经网络加以改进,提出S函数输出限幅算法、动量法、自适应学习算法,并用BP网络加以训练,这种改进的神经网络算法提高了声调识别的准确率。最后,本文对所提出的算法进行实验和性能分析。理论分析和实验结果都表明,应用本文提出的基音提取和声调识别方法可取得较高的声调识别准确率,并具较好的鲁棒性,但还存在一些缺点。我们在总结全文的基础上,指出了若干有待深入研究的问题。