论文部分内容阅读
大数据背景下,大量用户拥有智能设备如手机和平板电脑,将推动群智感知技术的发展。物联网下的群智感知应用,结合语音识别的热门技术,协作完成社群参与式感知任务,将提供更完善的智能化服务。语音数据作为群智感知应用采集的数据之一,语音识别系统需要解决群智感知应用场景下带来的背景噪声、特定人口音、信道带来的发音变形问题和多样化话语主题带来的大词汇存储问题等。本文首先研究了连续汉语语音识别系统的架构,对比分析了各个模块的相关技术,接着分析了群智感知中的场景特性和话语主题特征,然后基于Sphinx语音识别引擎及其相关训练工具,实现了群智感知中的离线识别和在线识别互补的语音识别系统。本文的主要工作和创新点如下:(1)分析了群智感知中的场景特性,基于声学模型训练流程,采用了最大似然线性回归(MLLR)和最大后验概率(MAP)算法对不同场景下的声学模型进行调整。分析了话语主题的特征,基于Ngram语言模型训练流程,采用了线性插值算法对语言模型进行融合。(2)提出了基于C/S模式的离线识别和在线识别互补的语音识别系统的设计框架,并基于Sphinx引擎实现了群智感知中的语音识别系统。客户端实现了解码器在离线状态下的语音识别,服务器端提供了在线状态下的识别一致性检测、模型调整训练、监控和推荐的功能以及对外访问的接口。(3)设计并完成了多个实验,包括:不同场景的适应性实验、不同话语主题的识别实验、语音识别系统Android客户端的CPU和内存占用率的测试实验、词汇量对识别准确率和识别速率的影响的实验。实验证明,场景适应模块有效提高语音识别系统在不同场景下的语音识别正确率,话语主题识别模块验证了语音识别系统在不同话语主题下的识别有效性,能满足用户个性化的语音输入的要求。