嵌入式人机语音交互系统关键技术研究

被引量 : 0次 | 上传用户:castle0611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,语音是人类最自然便捷的交流方式,也是人机交互中最直接的交互模式之一,被普遍认为是下一代人机交互革命的主角。伴随着以智能手机、平板电脑等为代表的嵌入式移动设备的普及,以及语音核心技术和应用环境的逐步成熟,语音交互在全球范围内正在被越来越多的用户接受和使用。然而,由于嵌入式移动设备的功耗和计算资源的限制,以及使用环境的复杂性等因素,使得嵌入式语音人机交互系统的实用化仍然存在很多的问题和挑战。在这一背景下,本文围绕嵌入式人机语音交互系统的关键共性技术问题展开较系统和深入的研究,具体在以下三个方面作出了一定的创新性工作。首先,针对语音交互系统识别前端的噪声鲁棒性问题,提出了一种综合考虑加性噪声和信道畸变的模型补偿算法,使用句子中的非语音段估计加性噪声,然后利用EM算法估计信道函数,进而在倒谱域上对失配的声学模型进行联合补偿。算法在噪声环境和信道失配场景下的识别性能均取得显著提升,并且可以动态跟踪环境的变化,性能表现优于一些传统的语音识别噪声鲁棒性算法。然后,针对用户在计算资源受限的嵌入式设备上进行中等规模连续语音识别的需求,在语音识别解码模块上提出了一种基于语言模型校正机制的识别解码算法,以基于单树词典的搜索算法替代会导致搜索空间随词典规模指数级增长的传统树状词典拷贝算法,并通过在树状词典的各节点处进行语言模型校正处理的方法来恢复单树词典所产生的搜索错误,在不影响识别性能的前提下使得解码算法复杂度降低了一个数量级。接着,在识别后端置信度模块上提出了一种基于音素聚类子空间的置信度判决算法,通过基于KL度量的音素聚类获取更加紧致的音素子空间,以对置信度得分的规整项进行更加准确的估计,在基本不影响置信度性能的前提下,使得运算复杂度获得了显著下降。最后,针对用户对千万量级以上文本列表集进行语音查询的典型需求,提出了一种语音模糊检索的系统解决方案,通过二级倒排索引、分块动态规划,以及识别重排序等算法组合,使得用户只需要输入检索文本列表中的片段、缩略或者其跨序组合即可将与之关联的备选结果查询出来,系统在支持用户以自由语音方式进行输入的同时,具备了相当高的检索性能,明显改善了人机语音的交互体验。
其他文献
Apelin是一种新发现的生物活性肽,是APJ受体的内源性配体。Apelin/APJ系统广泛分布于人和啮齿类动物的中枢神经和外周组织,参与多种生理及病理活动的调节。Apelin前体物Prepr
近年来,深层神经网络(Deep Neural Network, DNN)的崛起在诸多研究领域都引起了强烈的反响,并越来越受到关注。在语音识别领域,DNN相关技术能够使声学模型的识别性能得到显著
聚酸酐是一类具有良好生物相容性、生物粘附性并具有表面降解特性的高分子材料。在我们课题组以往的研究中发现了具有荧光性能的芳香族聚酸酐,在紫外或可见光的激发下,能发射
随着移动互联网时代的到来和相关技术的快速发展,以手机为代表的移动终端的使用越来越广泛,其便携性和易用性使得其逐渐融入人们的生活。随着技术的进步,手机已经不仅仅是简
<正>河南省郑州市建设交通邮电工会吕玉明张振锋周勇报道近日,河南省郑州市总工会、郑州市城市管理局联合下发《关于加强郑州市主城区"环卫工驿站"示范点建设的意见》(以下简
2017年6月13-14日,为期两天的工控安全保障初级培训第二期圆满结业。共有来自首钢京唐公司、中国海洋石油总公司、冶金自动化研究设计院、中国科学院沈阳自动化研究所、杭州
<正>作为党建工作的重要组成部分,非公经济组织和社会组织的党建工作备受各方关注。普兰店市经过多年探索和实践,不仅实现了双覆盖无遗漏、组织上不留"空白",还达到了思想上
介绍了台山市防雷检测所从成立机构、计量认证前的准备、编写《质量管理手册》、建立防雷检测试验室、人员培训、实验室环境改造、试运行、初审、复审等方面介绍,如何开展计
<正> 我国从1991年开始建立国家级高新区至今,已经有11年的历史,在高新区的建立之初,它本着“小政府,大服务”的原则,维护着一种自由市场配置资源的机制,使企业成为相对独立
【正】 在祖国西南边疆云贵高原上,以秀丽的苍山洱海为中心,包括大理、洱源、剑川、鹤庆、云龙、漾濞……等近十个县属在内的广大地区,居住着八十多万勤劳勇敢的白族人民。这