【摘 要】
:
介绍了一个基于连续语音识别技术的语音关键词检出系统的实现.该系统使用微软语音开发平台Microsoft Speech SDK(SAPI)实现了从离线语音库中批量地检出含有指定关键词的语音文件,并提取含有关键词的句子,标注出其中所有的关键词.通过设计关键词检出语法限制了语音识别的语言模型,从而达到检出关键词的目的.同时针对实际应用中需要经常更新关键词、语言模型不固定的问题,采用了动态更新检出语法的方
论文部分内容阅读
介绍了一个基于连续语音识别技术的语音关键词检出系统的实现.该系统使用微软语音开发平台Microsoft Speech SDK(SAPI)实现了从离线语音库中批量地检出含有指定关键词的语音文件,并提取含有关键词的句子,标注出其中所有的关键词.通过设计关键词检出语法限制了语音识别的语言模型,从而达到检出关键词的目的.同时针对实际应用中需要经常更新关键词、语言模型不固定的问题,采用了动态更新检出语法的方法,使得系统具有实用性.系统还设计了语音命令控制语法以实现语音交互.
其他文献
This paper proposes a kind of facial expression recognition technology based on the D-S theory with weighting coefficient of information fusion, in the background of Affective Computing theory, moreov
This article presents an efficient and robust algorithm that compute the intersection curve of a ruling surface with a plane. These ruling surface is represented by S(s,t)=B(t)+sV(t) where B(t) is the
In order to deal with contradiction between big dynamic range and single means to acquiring binarized vertical edge image in texture-based adapting license plate location(TALPL),research on acquiring
为解决多人行为识别中高维特征空间、角色分配不准确和复杂的时间结构等问题,本文分析了多人行为的特点,提出了一种递归的多层随机网络模型。该模型通过多层网络表达行为的多尺度特性,并由高层体现行为的长时间依赖性。通过对观测的分解大大降低了特征空间的维数,从而降低了问题的复杂度,并在一定程度上消除了目标角色分配不准确带来的影响。实验结果表明本文提出的模型比其他常用模型具有更好的识别效果,即使对复杂行为依然具
基于面向特定应用的可配置处理器架构及其设计方法,设计并完成了一种视频媒体编解码片上系统芯片,它具有通用数字信号处理器的柔性编程及特定目标应用时的高性能等特点。该视频编解码片上系统由编码和解码2部分组成,编码和解码部分都采用相同的媒体信号处理架构。媒体信号处理编码、解码架构中分别包含一个8发射超长指令字数字信号处理器核,还包括实现视频媒体应用的专用数据传输单元,变长编解码单元以及接口单元,可以完成H
图像在采集、存储、处理和传输过程中,由于成像系统、存储设备、传输介质和处理方法的不完善,导致图像质量的下降,这种现象叫做图像退化.图像复原就是对退化的图像进行处理,尽可能恢复出原始图像的真实信息.由Rudin等提出的ROF模型能很好的保持图像的边缘,并广泛应用于图像复原问题中.本文正是在此模型的基础上修改其正则项,建立一新的模型,然后利用原对偶算法对新模型求解并证明了该算法的收敛性.实验结果表明,
宾夕法尼亚州研究人员已经"教会"计算机如何用最多不超过330个英语单词来说明和解释图像。如计算机能使用"运动"、"人"、"马"、"马球"四个词汇描述两个马球运动员的照片。宾州信息科学与技术学院副教授、两项技术的发明人James Wang说,在上载图片的过程中,新系统能自动描述全部的在线图片,这意味着那些以往
Phase modulation is first introduced into aperture-scanning Fourier ptychography.A series of images are acquired with an aperture scanning the Fourier plane of an optical system with a phase modulator
为了研究多人脸多表情数据集的多流形学习问题,提出了一种基于局部线性嵌入(LLE)算法的多流形学习方法。对于分布在不同流形上的高维数据,该方法在降维的同时首先对数据集进行非监督的聚类,然后分析每一类数据的低维流形的本质维数以及流形空间的构成,聚类及流形空间的确定是通过对LLE降维的结果进行分析而完成的,计算复杂度小。在Cohn-Kanade人脸表情数据库上的表情识别实验表明,该方法在多人脸多表情流形
高斯混合模型(Gaussian Mixture Model,GMM)已经广泛的应用于文本无关的声纹识别系统,本文详细介绍了一个把背景模型(Universal Background Model,UBM)应用到说话人建模中去的说话人确认系统。由于人的声音的生物特征多变性,说话人模型还需要进行自适应技术的改进。最后,实验结果证明了采用自适应技术的GMM-UBM模型的高效性。