唇读的静动态特征表示方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gkhy0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读(Lipreading)研究试图赋予计算机根据唇部运动辨别说话内容和根据唇部运动规律辨别人物身份的能力。该研究具有重要的科学意义和应用价值。从学科建设和发展的角度,唇读作为一个科学问题,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。同时,作为生物特征识别技术之一的基于唇读的说话人识别技术则在公共安全、信息安全等领域具有潜在的应用前景。目前,唇读在说话内容识别上还没有获得理想的识别性能,其中一个重要的原因就是没有对唇区特征区域给出很好的定义和有效的特征表示。本文重点探讨了特征表示的一些技术和关键问题,对唇区的特征区域标定,静、动态特征表示方面进行了专门研究。本文主要的研究工作如下:1.提出了基于统计的自适应特征区域标定方法。特征区域的标定是唇读特征表示的第一步,本文提出的标定方法首先通过手动标定唇的“红色区域”,然后对其范围进行统计,得到以中心点为基准的最大尺寸,并将统计信息反馈给预处理模块,由预处理模块自动对特征区域重新标定,由此可以使标定尺寸自适应于不同的图片集。这种方法在本文的所有特征表示方法上取得了性能提升。2.基于静态图像的特征表示的研究中,本文对PCA、DCT、Gabor方法在唇读中的应用进行了深入研究和实验对比。针对目前的特征表示方法没有泛化能力的问题进行了探讨,引入一种新的特征描述子:局部二值模式,提出局部二值模式在唇读中的应用方法,该方法具有良好的泛化能力和较快的计算速度,在未来的实用唇读系统中具有很大的应用潜力。3.提出了基于三维时空体的唇读模型,并在模型基础上提出了三维时空体的特征表示方法:唇读的差分型特征表示和积分型特征表示。基于三维时空体的唇读模型结合了空间和时间的双重特点,能够充分表达唇动过程的运动特性。本文探讨了两种基于时空的特征表示方法,从实验对比、理论分析和数学证明三个方面证明了积分型特征在表达能力和可分性上的优势。
其他文献
串匹配算法是计算机科学领域中一个重要的基础研究领域。在文本处理、数据压缩、搜索引擎、生物计算,以及网络安全等大量的应用中,都需要进行串匹配。本文主要讨论精确模式串
信息时代的到来带来了大数据时代的契机,同时也带来了信息的爆炸式增长。多元化的知识信息给人们提供便利的同时,也带来有效获取真正感兴趣知识的困难,由此知识的个性化服务
秘密共享是门限密码学的基础。门限秘密共享的主要思想是将一个秘密分割成若干子秘密分散存储于多个成员,当需要重构秘密或使用它进行某种密码运算时,必须多于特定数量(门限
目前嵌入式系统已经广泛应用在航天、航空、工业机器人、系统控制等领域,然而,海量数据处理对嵌入式计算系统提出了更高的要求。为了开发更高性能的嵌入式系统,并行计算成为提高
当今数字化时代,对于企业的运作发展,信息技术扮演着越来越重要的角色,软件系统的破坏和数据资料的损毁将对企业造成难以估量的损失。而很多灾难事件又无法预计和避免,如雪灾、恐
随着无线通信技术和多媒体技术的飞速发展和日益成熟,无线分布式环境下视频应用的需求变得日益迫切。具有高复杂度编码器的传统混合编码技术已经不再适用于这种应用环境,迫切
密文数据库检索方法是数据库加密技术研究的难点和重点。目前,对密文数据库检索方法的研究还处于起步阶段,各方面的技术还不成熟,存在一定的缺陷。本文对密文数据库检索方法
随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有
潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的
随着Internet的日益普及,人们的信息资源变得丰富起来,如何在众多的资源中快速、准确的定位到合适的信息,是一个十分棘手、也是必须解决的问题。Web搜索引擎在很大程度上缓解了