论文部分内容阅读
众所周知,语音是人类最自然便捷的交流方式,也是人机交互中最直接的交互模式之一,被普遍认为是下一代人机交互革命的主角。伴随着以智能手机、平板电脑等为代表的嵌入式移动设备的普及,以及语音核心技术和应用环境的逐步成熟,语音交互在全球范围内正在被越来越多的用户接受和使用。然而,由于嵌入式移动设备的功耗和计算资源的限制,以及使用环境的复杂性等因素,使得嵌入式语音人机交互系统的实用化仍然存在很多的问题和挑战。在这一背景下,本文围绕嵌入式人机语音交互系统的关键共性技术问题展开较系统和深入的研究,具体在以下三个方面作出了一定的创新性工作。首先,针对语音交互系统识别前端的噪声鲁棒性问题,提出了一种综合考虑加性噪声和信道畸变的模型补偿算法,使用句子中的非语音段估计加性噪声,然后利用EM算法估计信道函数,进而在倒谱域上对失配的声学模型进行联合补偿。算法在噪声环境和信道失配场景下的识别性能均取得显著提升,并且可以动态跟踪环境的变化,性能表现优于一些传统的语音识别噪声鲁棒性算法。然后,针对用户在计算资源受限的嵌入式设备上进行中等规模连续语音识别的需求,在语音识别解码模块上提出了一种基于语言模型校正机制的识别解码算法,以基于单树词典的搜索算法替代会导致搜索空间随词典规模指数级增长的传统树状词典拷贝算法,并通过在树状词典的各节点处进行语言模型校正处理的方法来恢复单树词典所产生的搜索错误,在不影响识别性能的前提下使得解码算法复杂度降低了一个数量级。接着,在识别后端置信度模块上提出了一种基于音素聚类子空间的置信度判决算法,通过基于KL度量的音素聚类获取更加紧致的音素子空间,以对置信度得分的规整项进行更加准确的估计,在基本不影响置信度性能的前提下,使得运算复杂度获得了显著下降。最后,针对用户对千万量级以上文本列表集进行语音查询的典型需求,提出了一种语音模糊检索的系统解决方案,通过二级倒排索引、分块动态规划,以及识别重排序等算法组合,使得用户只需要输入检索文本列表中的片段、缩略或者其跨序组合即可将与之关联的备选结果查询出来,系统在支持用户以自由语音方式进行输入的同时,具备了相当高的检索性能,明显改善了人机语音的交互体验。