论文部分内容阅读
现代移动通信终端发展的一个基本趋势就是:体积越来越小,功能越来越多。这样的情况下,无论是使用键盘还是触摸屏,都难以提供足够良好的人机交互,尤其老年人、视力有障碍者对这些设备的操作难度更大。此外,工业控制、军事、医疗等多个领域也都存在人机交互难度大的问题。而语音是人类最便捷、最自然的信息交换方式,如果可以在这些设备中嵌入一个有效的人机语音交互系统,就能很好地解决此类问题。因此嵌入式语音识别系统作为嵌入式人机语音交互系统的核心,有非常广阔的应用领域。然而由于嵌入式设备本身资源和使用环境的限制,该领域一直是国内外语音识别技术研究的难点。本课题正是对基于嵌入式设备的人机语音交互这一领域进行探索和研究,取得了一定的经验和成果。在硬件部分,考虑到嵌入式设备除了需要支持运算量非常大的语音识别引擎以外,还需要运行图形用户界面或其它应用程序,且设备的功耗不能太大,普通的单核处理器很难同时满足这些要求。因此本课题使用TI公司的非对称双核OMAP5912处理器作为嵌入式语音识别系统的CPU,利用TMS320C55x DSP处理器强大的数字信号处理能力且极低功耗的特性,分担GPP端的一部分数字信号处理任务,提高系统的运行效率。在软件部分,开源软件运动已经发展20多年了,在科技界开源思想早已深入人心,利用现有的开源软件可以极大地缩短软件的开发周期,同时降低开发成本。我们主要依靠开源社区的软件工具,建立了OMAP5912软件开发平台,将Bootloader、Linux内核和DSP Gateway等工具软件移植到了OMAP5912处理器,证明DSP运行正常,并且GPP能够通过DSPGateway对DSP进行控制,使其在语音识别过程中分担一部分数字信号处理任务。在人机语音交互系统的构建过程中,我们以开源社区的PocketSphinx语音识别引擎为基础,对其中过于复杂的代码进行了删减,同时对部分程序的功能进行了合并、修改或增强,使程序的编译、运行和维护更为容易。论文最终完成了开源社区的PocketSphinx语音识别引擎向OMAP5912处理器平台的移植,并以此为基础实现了基于OMAP5912嵌入式处理器的人机语音交互系统,达到了课题预定目标。