论文部分内容阅读
经过几十年的发展,语音处理技术取得了许多破性的进展,很多语音技术像语音识别技术、语音合成技术等已经达到了大规模应用的水平。作为一种自然的交互方式,语音技术的普及将为每个人的日常生活提供便利。说话人识别技术是语音处理技术的一个重要分枝。上世纪90年代中期,特别是高斯混合模型应用于该领域之后,说话人识别技术获得极大的发展和完善。说话人识别技术在安静理想环境中和在说话人语音充足的条件下,可以达到很高的识别率,甚至超越普通人类的识别水平,基本满足实际应用的要求。但是在现实的应用场景中,由于开放环境的特殊性和复杂性,存在着噪声、信道、训练与识别语音时长等干扰因素,系统的识别性能往往会出现大幅度的下降,无法达到在实验室环境中的识别水平,这也直接影响了说话人识别技术的大规模普及应用。短时测试语音是影响说话人识别性能的一个因素,由于实际应用场景的条件限制、复杂性或应用需求,会使原始语音信号中包含说话人个性信息的特征数量过少,因此会导致识别性能的急剧下降。针对短时语音的影响,本文提出了一种基于共性特征选择的说话人识别算法,在说话人训练和识别的过程中采用特征选择的方法,通过筛选特征,减少可能导致错误决策的特征向量,降低分险,提高识别率。本文首先详细研究了一个完整的基于高斯混合模型说话人识别系统。然后分析了短时语音的问题和短时语音说话人识别的相关算法,提出了存在的问题。通过对算法缺点的分析,作者被启发出一个更简单更有效的短语音识别算法,对当前的短语音说话人识别算法进行改进。本文将该识别算法应用于一款玩具机器人系统中,试验结果表明,系统识别性能得到了明显的提升,新算法能有效识别0.25秒左右的短时语音,比现有传统算法有明显提升,提高了玩具机器人的智能性和娱乐性。