基于肤色模型和主元分析的视觉特征研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ruqianwusan3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于隐马尔可夫模型的语音识别技术已进入识别性能平台,但鲁棒性能低,不适合于复杂环境下的应用。人类语音的产生和感觉本质上均是双模态的(音频和视频),语音信号是由发音器官产生的,不同的发音可能具有不同的嘴型。在语音识别过程中,音频信息和视频信息具有很好的互补性,因此近来年音频-视频混合语音识别(AVSR)得到了重视。AVSR技术的关键问题是脸部视频特征的提取和音、视频特征的结合方式。而如何准确地将人脸和嘴唇实时检测和定位,是视频特征提取的关键。该文通过分析和学习诸多前人在人脸特征点定位方面的算法,提出了一套简单有效的人脸嘴部区域的自动定位和分割方法,并在此基础上进行视频特征的提取。 1、彩色头肩像中人脸的检测和定位。该文分析了人脸的特点和对算法的要求,介绍了一些常用的人脸检测算法,同时指出他们存在的局限性,提出了一种设定参数门限的基于高斯肤色模型的人脸检测及定位算法。在算法测试中,从实验数据可以看出,与传统的算法相比,改进的门限设定算法能够大幅地减少运算量,使算法的实时性得到较大提高,并且仍保持较好的性能。 2、基于人脸初定位的嘴部区域(ROI)定位。该文在两种主流研究方法中,选择了基于象素的利用统计理论的方法——主元分析法(PCA),提出在Cr和Gray两种空间基于PCA的最小剩余误差能量的ROI定位算法,并在算法中引入了受限窗扫描策略,通过实验可以看出,这种改进后的算法,不仅尽可能地满足了实时性的需要,而且大大改善了主元分析法对光照敏感的不足,使算法的鲁棒性得到了较大的提高。 3、视觉特征的提取和评价。该文在ROI准确定位的基础上,通过ROI在特征子空间的投影,实现了视觉特征的提取,并对所提取的特征进行正确性和有效性两方面的评价。在此,引入了相似度P作为特征准确性评价的度量值,并通过特定人孤立数字的DTW识别实验验证了基于以上算法提取的特征的有效性。 4、以MATLAB6.5为开发语言,对各种算法进行了实现与测试。实验结果表明,该文提出的算法具有受亮度影响小,定位精度高,鲁棒性好的优点,而且对单模态的视觉语音的识别实验也取得相对较高的识别率,这为下一步进行的双模态语音识别的研究和应用打下了基础,具有一定的理论和应用价值。
其他文献
当前,物联网产业发展迅速,国际上IEEE成立了专门的11ah工作组来制定相应的无线网络标准,草案版本已经公布,国内电信研究院也在联合多家单位起草相应的国内标准。物联网正发挥
在现代电子产品中,嵌入式系统得到了广泛的应用。从8 位的单片机到32 位嵌入式CPU,出现了各种嵌入式平台,相应的软件控制技术也层出不穷,从简单的汇编控制到各种成熟的操作系
  本文根据相关信号处理所涉及的理论,针对实际通信系统模型,提出了空域平滑相关信号处理的改进算法,用计算机仿真平台进行的仿真实验包括,基于MUSIC算法的波达方向估计;基于空
ITU-T和ISO/IEC于2013年1月发布了一项新的视频压缩标准—HEVC。HEVC是继H.264之后的新一代视频压缩标准,与H.264相比,HEVC的压缩效率高出一倍,HEVC标准的出现解决了视频分辨
移动Ad-Hoc网络是由一组无线移动节点组成的集合,这些移动节点可以在没有任何网络基础设施和集中化管理的情况下互相通信。移动Ad-Hoc网络是一个有实际应用价值的研究领域。但
PDA是随着计算机迅速发展而诞生的一种数码产品,因为功能强、体积小、携带方便,成为一种时尚数码产品。但近一两年来,PDA的销量呈下滑趋势,经过对市场的分析,发现原因在:高档PDA价
  无线通信系统中,由于反射和折射的影响,会使信号产生时延、相位和幅度上的变化,使接收信号产生多径衰落,影响移动通信系统的通信质量。分集合并接收技术是十分有效的抵抗多径
现代社会中,由于无数科研人员的不懈努力,无线通信领域的诸多难题被逐一攻克,人类的沟通与交流也因此变得更加快捷。然而,对更高资源利用率、更快数据处理速率和更强系统可靠性的
近年来,盲信道辨识与均衡在通信和信号处理领域已经受到普遍关注。本文的内容围绕着它的算法实现来展开。首先阐述了这一问题的理论基础,接着详细地讨论了有关非最小相位系统
近年来,工作流技术已经成为人们的日常业务处理中越来越重要的技术,在全球范围内,对工作流技术的研究以及相关产品的开发进入了更为繁荣的阶段,工作流技术的研究应用日益受到