论文部分内容阅读
随着人工智能和计算机视觉的发展,基于多视点图像的三维重建技术逐渐成为了一个热门的研究方向,通过对普通相机采集到的二维图像数据进行处理便可生成三维几何模型。相比于专业三维重建仪器,基于多视点图像的三维重建技术有着成本低、局限性小、资源消耗少等优势,在三维地图、三维器官、影视三维场景、文物、历史遗迹的三维重建保护等方面有着广阔的应用前景。目前基于多视点图像的三维重建技术还存在一些有待完善的地方,本文对其中的不足进行了分析,并针对存在的问题提出了优化策略,主要工作如下:1)在实际工作和项目中,使用手机、相机或无人机等方式来对重建物体进行多视角图像数据采集便可得到所需的输入数据,但这种手动方式采集到的图像数据存在种类繁杂、分类不明确的缺陷,在进行特征点匹配时会出现包含不同信息(非理想匹配面)的图像数据之间发生误匹配问题,甚至在完全不同的图像数据之间建立错误对应关系,影响最终三维模型建立的精度。针对这一问题,本文提出采用卷积神经网络(Convolutional Neural Networks,CNN)模型结合K均值聚类改进算法(K-means++)对采集到的原始图像数据进行分类预处理,通过将Alex Net、VGG16、VGG19模型在数据集上进行训练对比,选择效果较好的VGG19作为图像数据特征提取模型,对提取后的图像特征向量表示进行聚类来实现图像数据的分类预处理,并对实际项目中的图像数据进行实验,实现了图像数据的准确分类,有效提升了后续特征点匹配的精度。2)在基于多视点图像的三维重建技术中,图像数据特征点匹配的速度和精度是理想三维模型建立的重要前提,也是机器视觉应用的基石。对图像数据进行特征点提取匹配多采用经典的尺度不变特征变换(Scale-invariant feature transform,SIFT)算法。目前该算法采用的几乎都是基于CPU的软件实现方式,而在实际三维重建工作和项目中,传统基于CPU的实现方式存在着速度慢、效率低、功耗高、实时性不强等缺点。针对上述问题,本文提出使用现场可编程门阵列(Field Programmable Gate Array,FPGA)结合高层次综合(High-Level Synthesis,HLS)技术来对图像数据特征点匹配算法进行优化设计实现,对分类好的图像数据进行了具体实验,并将实验结果和传统基于CPU的实现方式进行了对比,实现速率远高于传统软件方法,达到了预期的高速率、低功耗、实时性目的。