论文部分内容阅读
在项目“虚拟手术仿真中多模态耦合视触觉反馈关键问题研究”中,项目组研制了基于虚拟现实、计算机视觉和电磁学等技术的视触觉交互平台。该平台通过立体视觉技术获取操作器械的空间位置信息,并将其传递给虚拟场景;虚拟场景利用该信息同步虚拟操作器械以及计算它和虚拟模型的位置关系,依此进行触觉渲染并传递给电磁力反馈装置;力反馈装置根据“力”的大小来调控电流,进而引起操作器械周围磁场的变化,实现力反馈的目的。在定位过程中,为了避免环境干扰而采用白色遮罩将操作空间覆盖住,使得该平台的操作空间及应用场景受限;传统的特征匹配方法存在较多的误匹配,且计算量较大,导致虚拟场景中的操作器械存在抖动现象和达不到实时性要求;以及网络摄像头的使用使得整个平台的自主性和集成度都很低,这些问题的存在都不利于该平台的进一步推广应用。
为了解决上述问题,本文开展了基于背景建模的快速特征匹配方法来实现快速定位的研究,该工作包括的主要内容有:去除非目标区域的背景建模方法研究、提升背景模型中训练数据质量的优化方法研究、计算空间位置过程中快速精确的特征匹配方法研究以及嵌入式环境下快速视觉定位方法的硬件架构设计与实现。主要的研究工作如下:
提出了一种新的基于核密度估计(kernel density estimation,KDE)的背景模型框架。首先我们为每一个像素设计了一个新的数据结构,称之为米诺向量(Mino vector, MV);为场景中的像素定义了动态性这一概念,并依据动态性对像素进行分级,以便得到量化的结果,称之为动态级。然后引入并实现了可变核密度估计方法,该方法可以有效地提高估计精度。其次,在阈值选择上,不同于传统的全局阈值,每个像素依据其自身的动态级自适应地获取阈值。最后,受著名的电子游戏 – 俄罗斯方块(Tetris)的启发,我们提出一种称之为Tetris更新策略(Tetris update scheme,TUS)的方法,当更新条件满足时,将背景模型最底层的一行删除,从而使得噪声得到抑制。通过在著名的视频数据集CDnet2012上验证本文方法,实验结果表明,和当前最好的方法相比,我们的框架实现了具有竞争力的结果。
提出了用于提高背景模型的训练数据质量的优化方法。训练数据的质量问题涉及两个子问题,分别是多少样本算是合适的,以及这些样本里面哪些是可靠的。为了解决第一个子问题,本文首先提出一种称之为双重方差的收敛方法,用来决定在训练数据序列中的一个合适的终止点。这样的话,可以使用从第一帧到该终止点间的数据进行训练,而不是使用全部的训练数据。至于第二个子问题,我们通过为每一个像素构建一个像素直方图,然后从这些灰度值数量不为零的数量上减一,该方法可以有效地去除外点的干扰。进一步地,本文方法属于即插即用型,可以方便地应用于基于训练样本的背景模型。实验中,通过将本文方法集成到多种当前最优的方法中,实验结果表明,这些方法在使用本文方法前后的三项性能指标(recall,precision和F-Measure)都有所提升,分别为从4.95%到16.47%,从5.39%到26.54%和从12.46%到20.46%。
提出了用于立体图像对( stereo pairwise image , SPI )匹配的方向大约一致(approximately consistent in orientation,ACIO)约束关系,其描述了SPI的匹配特征向量间的空间位置关系,有效地避免了误匹配的发生,提高了匹配的精度;通过对标准K-d树(standard K-d tree,SKD-tree)结构的分析,提出了层次结构K-d树(hierarchical K-d tree,HKD-tree),将SPI特征集根据ACIO约束关系划分成层次结构并建立映射,该方法缩小了搜索空间,从而达到加速匹配的目的。在ACIO和HKD-tree的基础上,提出了高效、快速的匹配算法。实验结果表明,所提方法比 SKD-tree 方法和最新的级联哈希方法( cascade hash , CasHash )在精度上略占优势,但在匹配速度上比SKD-tree快一个数量级以上,同时也数倍于CasHash。
为了提高和完善该平台的整体性与自主知识产权,提出了基于Arm Cortex-M系列高性能微处理器的双层硬件架构设计,并优化背景模型和特征匹配算法。前端芯片用于信号采集和运行优化的背景模型进行目标过滤,后端芯片用于发送同步采集控制信号和对过滤的目标对象进行特征匹配,并计算目标的空间位置。实验结果表明,双层硬件架构设计和优化的背景模型与特征匹配算法,可以在保证位置计算的准确性的前提下提高运行速度,为该平台后续向高集成度方向的发展和进一步的推广应用奠定基础。
为了解决上述问题,本文开展了基于背景建模的快速特征匹配方法来实现快速定位的研究,该工作包括的主要内容有:去除非目标区域的背景建模方法研究、提升背景模型中训练数据质量的优化方法研究、计算空间位置过程中快速精确的特征匹配方法研究以及嵌入式环境下快速视觉定位方法的硬件架构设计与实现。主要的研究工作如下:
提出了一种新的基于核密度估计(kernel density estimation,KDE)的背景模型框架。首先我们为每一个像素设计了一个新的数据结构,称之为米诺向量(Mino vector, MV);为场景中的像素定义了动态性这一概念,并依据动态性对像素进行分级,以便得到量化的结果,称之为动态级。然后引入并实现了可变核密度估计方法,该方法可以有效地提高估计精度。其次,在阈值选择上,不同于传统的全局阈值,每个像素依据其自身的动态级自适应地获取阈值。最后,受著名的电子游戏 – 俄罗斯方块(Tetris)的启发,我们提出一种称之为Tetris更新策略(Tetris update scheme,TUS)的方法,当更新条件满足时,将背景模型最底层的一行删除,从而使得噪声得到抑制。通过在著名的视频数据集CDnet2012上验证本文方法,实验结果表明,和当前最好的方法相比,我们的框架实现了具有竞争力的结果。
提出了用于提高背景模型的训练数据质量的优化方法。训练数据的质量问题涉及两个子问题,分别是多少样本算是合适的,以及这些样本里面哪些是可靠的。为了解决第一个子问题,本文首先提出一种称之为双重方差的收敛方法,用来决定在训练数据序列中的一个合适的终止点。这样的话,可以使用从第一帧到该终止点间的数据进行训练,而不是使用全部的训练数据。至于第二个子问题,我们通过为每一个像素构建一个像素直方图,然后从这些灰度值数量不为零的数量上减一,该方法可以有效地去除外点的干扰。进一步地,本文方法属于即插即用型,可以方便地应用于基于训练样本的背景模型。实验中,通过将本文方法集成到多种当前最优的方法中,实验结果表明,这些方法在使用本文方法前后的三项性能指标(recall,precision和F-Measure)都有所提升,分别为从4.95%到16.47%,从5.39%到26.54%和从12.46%到20.46%。
提出了用于立体图像对( stereo pairwise image , SPI )匹配的方向大约一致(approximately consistent in orientation,ACIO)约束关系,其描述了SPI的匹配特征向量间的空间位置关系,有效地避免了误匹配的发生,提高了匹配的精度;通过对标准K-d树(standard K-d tree,SKD-tree)结构的分析,提出了层次结构K-d树(hierarchical K-d tree,HKD-tree),将SPI特征集根据ACIO约束关系划分成层次结构并建立映射,该方法缩小了搜索空间,从而达到加速匹配的目的。在ACIO和HKD-tree的基础上,提出了高效、快速的匹配算法。实验结果表明,所提方法比 SKD-tree 方法和最新的级联哈希方法( cascade hash , CasHash )在精度上略占优势,但在匹配速度上比SKD-tree快一个数量级以上,同时也数倍于CasHash。
为了提高和完善该平台的整体性与自主知识产权,提出了基于Arm Cortex-M系列高性能微处理器的双层硬件架构设计,并优化背景模型和特征匹配算法。前端芯片用于信号采集和运行优化的背景模型进行目标过滤,后端芯片用于发送同步采集控制信号和对过滤的目标对象进行特征匹配,并计算目标的空间位置。实验结果表明,双层硬件架构设计和优化的背景模型与特征匹配算法,可以在保证位置计算的准确性的前提下提高运行速度,为该平台后续向高集成度方向的发展和进一步的推广应用奠定基础。