论文部分内容阅读
人机交互是计算机系统的重要组成部分。从计算机诞生以来,人机交互的发展经历了命令交互、图形用户界面交互和自然人机交互这三个阶段。自然人机交互是指交互方式自然直观,用户使用日常技能就能进行的人机交互。注视点人机交互是自然人机交互的一种,具有广泛的应用前景,近年来逐渐成为研究的热点。基于注视点估计的人机交互技术(简称“注视点人机交互”)是指用户使用眼睛的注视点和计算机交互的方式,也是一种自然人机交互技术,该技术的核心是注视点估计技术。在图形用户界面上用注视点交互,比用鼠标交互更自然、更快速,且不需要动手操作,因此注视点人机交互技术具有广泛的应用前景。然而,目前市场上实现注视点人机交互的产品的价格都非常昂贵,很难成为民用产品。这些产品价格昂贵的原因是目前达到人机交互精度要求的注视点估计技术都需要使用高成本的设备。因此,研究一种基于廉价设备的注视点估计技术具有重要意义。为了推进注视点人机交互技术的普及,本文研究了一种面向人机交互的基于廉价设备的注视点估计技术,具体的研究工作包括:1.提出了一种基于映射和虹膜中心修正的注视点估计算法(MIGE)。该算法先通过校正过程求出从眼睛图像中虹膜中心到场景图像中注视点位置的映射,然后利用该映射估计注视点。求取虹膜中心是算法的关键步骤,其过程是先用本文提出的“带位置调节的固定形状区域生长算法”(RGFSPA)求出眼睛图像中的虹膜区域,然后在虹膜区域的边缘拟合出一个椭圆,最后用本文中建立的眼球几何模型对椭圆中心进行修正以得到虹膜中心。实验表明本文算法较同类算法在准确性上有明显提升。2.提出了一种基于局部最值求取的眨眼检测算法(LEBD)和一种特征眨眼分类算法,并基于这两个算法实现了3种注视点人机交互动作。为了自然高效的交互,本文使用眨眼动作配合注视点位置实现交互动作。为检测眨眼动作,本文提出了一种基于局部最值求取的眨眼检测算法,该算法检测眨眼的准确率高于其他算法,且具有实时性。在该算法基础上,本文还提出了特征眨眼动作的分类算法,实验表明用户在经过短暂的训练之后可以掌握双眨眼和长睁眼两种特征眨眼动作,并取得了很高的识别率。在眨眼检测算法和特征眨眼分类算法的基础上,我们实现了三种交互动作,这些交互动作比其他系统的更高效,且交互中完全没有手部动作。3.实现了一个基于注视点估计的人机交互原型系统。为了验证本文中提出的注视点估计算法、基于局部最值求取的眨眼检测算法、特征眨眼分类算法的准确性,本文结合以上几种算法实现了一种基于注视点估计的人机交互原型系统。该系统可以在只使用廉价设备和可见光时使用,并且具有友好的交互体验。