论文部分内容阅读
唇读(Lipreading)研究试图赋予计算机根据唇部运动辨别说话内容和根据唇部运动规律辨别人物身份的能力。该研究具有重要的科学意义和应用价值。从学科建设和发展的角度,唇读作为一个科学问题,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。同时,作为生物特征识别技术之一的基于唇读的说话人识别技术则在公共安全、信息安全等领域具有潜在的应用前景。目前,唇读在说话内容识别上还没有获得理想的识别性能,其中一个重要的原因就是没有对唇区特征区域给出很好的定义和有效的特征表示。本文重点探讨了特征表示的一些技术和关键问题,对唇区的特征区域标定,静、动态特征表示方面进行了专门研究。本文主要的研究工作如下:1.提出了基于统计的自适应特征区域标定方法。特征区域的标定是唇读特征表示的第一步,本文提出的标定方法首先通过手动标定唇的“红色区域”,然后对其范围进行统计,得到以中心点为基准的最大尺寸,并将统计信息反馈给预处理模块,由预处理模块自动对特征区域重新标定,由此可以使标定尺寸自适应于不同的图片集。这种方法在本文的所有特征表示方法上取得了性能提升。2.基于静态图像的特征表示的研究中,本文对PCA、DCT、Gabor方法在唇读中的应用进行了深入研究和实验对比。针对目前的特征表示方法没有泛化能力的问题进行了探讨,引入一种新的特征描述子:局部二值模式,提出局部二值模式在唇读中的应用方法,该方法具有良好的泛化能力和较快的计算速度,在未来的实用唇读系统中具有很大的应用潜力。3.提出了基于三维时空体的唇读模型,并在模型基础上提出了三维时空体的特征表示方法:唇读的差分型特征表示和积分型特征表示。基于三维时空体的唇读模型结合了空间和时间的双重特点,能够充分表达唇动过程的运动特性。本文探讨了两种基于时空的特征表示方法,从实验对比、理论分析和数学证明三个方面证明了积分型特征在表达能力和可分性上的优势。