【摘 要】
:
随着三维数据采集、可视化、硬件设备的技术升级以及互联网行业的快速发展,三维模型已经成为一种主流的多媒体方式。如何在大量数据中检索到相似的三维模型已成为一个至关重要的研究课题。通常解决方法分为两类,分别为基于模型的检索算法与基于视图的检索算法。早期的方法主要是基于模型的算法,需要直接从明确的三维模型中学习拓扑结构、骨架信息等。基于视图的算法以不同的视图表示三维模型,并经过若干卷积层、池化层、全连接层
论文部分内容阅读
随着三维数据采集、可视化、硬件设备的技术升级以及互联网行业的快速发展,三维模型已经成为一种主流的多媒体方式。如何在大量数据中检索到相似的三维模型已成为一个至关重要的研究课题。通常解决方法分为两类,分别为基于模型的检索算法与基于视图的检索算法。早期的方法主要是基于模型的算法,需要直接从明确的三维模型中学习拓扑结构、骨架信息等。基于视图的算法以不同的视图表示三维模型,并经过若干卷积层、池化层、全连接层得到最终用于检索的特征描述符。与基于模型的算法相比,基于视图的算法可以借助成熟的二维图像处理技术得到区分度更高的特征描述符。本文在基于视图的三维模型检索方法的基础上,提出了两种检索方法:基于双流网络的三维模型检索方法与基于多分支图卷积网络的三维模型检索方法,分别支持以模型检索模型和以二维图像检索模型。两种方法首先都需要获取模型不同视点的视图,并通过卷积神经网络提取各个视图的特征描述符。在基于双流网络的方法中,包含由两个LSTM组成的视觉显著性网络与多视图卷积神经网络。首先通过软注意力机制在学习过程中保存视图之间的相关性,使得表征网络更专注于权重较大的视图。然后将两个分支的特征级联,得到用于检索的模型特征描述符。在基于多分支图卷积网络的方法中,首先通过相似性生成一个以待检索图像、训练二维图像、训练三维模型为顶点的初始图,以数据集中的二维图像作为介质,建立了待检索图像与三维模型在同一个空间的关系。然后使用多头注意力机制中的自注意力模型建立了多个完全连接加权图,进一步纠正和发掘顶点之间的关联。最后通过最大池化融合多分支的注意力图卷积嵌入结果得到各个顶点的特征描述符,进而完成跨模态的信息检索任务。本文选取了较为流行的三维模型数据集进行评测,得到了各个参数的最优值,并与经典三维模型检索算法进行了比较。最终大量的实验结果证明了本文所提算法的有效性。
其他文献
随着深度学习等技术的不断发展,人们希望人工智能成果能够应用在教室内以提高学生的上课效率,而人脸识别系统是多数教室内智能应用的基础。虽然现阶段人脸识别模型在数据集上可以达到很高的准确率,但在实际的教室场景下由于学生的面部姿态问题,人脸图像模糊问题以及人脸遮挡问题导致人脸识别系统的准确率较低。同时,现阶段教室人脸识别系统大多停留于理论阶段,很少有实际的应用。因此,本文针对教室内人脸姿态问题、人脸模糊和
<正>为保障实验动物的福利,不断提升动物实验研究水平,并获得国际学术界同行的认可,根据国际和中国实验动物有关法规和标准,在实验动物麻醉方法中,鉴于水合氯醛原属于镇静、催眠及抗惊厥药,作为麻醉剂效果较差,刺激性强、毒副作用较大,存在干扰实验结果,并且有悖实验动物福利伦理审查原则等问题,美国兽医协会(American Veterinary Medical Associaon,简称AVMA)已宣布不允许
随着三维模型检索、3D打印等技术的快速发展,三维模型被广泛应用于互联网、机械加工制造等领域。然而在现实生活中三维模型的获取难度较大,大量的模型数据掌握在设计人员及专业的应用方,这也限制了三维模型的大面积应用。但是,随着视觉采集设备的发展和普及,相对三维模型而言,二维图像更容易获取。因此,如何通过二维图像信息重建或者检索三维模型开始获得越来越多科研人员的关注和精力投入其中。本文着力于解决三维模型特征
点云是雷达扫描所得到的一系列点的坐标的集合。由于点云环境表达精准且包含丰富的三维地理信息,点云目标感知被广泛应用于自动驾驶汽车中准确环境感知任务。近些年来,随着深度学习的不断突破和三维点云数据的可及性,基于神经网络的点云目标感知算法取得了极大发展。利用神经网络从非结构化的点云数据中提取高语义、鲁棒的特征是点云目标感知算法的研究重点。针对现有点云目标感知算法中下采样方法仅利用点云地理信息的问题,本文
<正>我国正在进入老龄化社会,老年人中心血管疾病患者人数也在不断增加,给社会和家庭造成的负担越来越严重[1]。研究证明运动能力的下降会使老年人失能的风险增加,降低老年人的生活质量[2]。找到改善老年人心血管功能和运动能力的手段,对预防老年人心血管疾病发生和改善老年人生活质量具有重要意义。目前,运动干预越来越受到研究人员的重点关注,运动干预已经成为治疗老年人心血管疾病的有效方法[3]。研究发现,
音频场景识别旨在用计算机分析音频信号所处的环境信息,具有重要的研究意义。音频场景识别方法对输入的声学特征表示进行特征提取,并利用得到的声学特征分类场景类型。随着大数据技术和高性能处理器的发展,基于深度学习的音频场景识别方法通过监督学习策略,解决了传统方法对高维多分类复杂关系建模的难题。然而,现有的方法在实际应用时仍面临算法针对性不强、训练数据量不足、计算复杂度过高和模型可解释性差等问题。因此,本文
雾天采集到的图像存在对比度下降和色彩偏移等问题,降质图像会严重影响计算机视觉系统的处理性能,图像去雾研究具有重要的理论意义和现实意义。本文深入研究基于深度学习的去雾方法,并针对现有端到端去雾网络存在去雾不彻底、细节模糊以及颜色失真等问题提出两种去雾新方法,主要工作如下:针对现有去雾网络对图像特征提取不完整、网络模型泛化能力不足等问题,本文基于卷积神经网络设计了一种基于内容特征和风格特征融合的去雾网
<正>陕西省宝鸡市城市管理执法局以建设法治政府和法治城管为目标,以法治建设反馈问题整改和示范创建为抓手,扎实推进依法行政、文明执法,取得积极成效。2022年,宝鸡市城市管理执法局被宝鸡市司法局评为法治建设优秀单位。深入学习习近平法治思想
3D视频在2D视频的基础上增加了视点数目和深度数据,其数据量要远大于2D视频,给视频的存储和传输带来了巨大的挑战。因此,如何实现高效的3D视频压缩编码具有重要的理论研究意义和实际应用价值。近年来,随着人工智能技术的发展,深度学习在视频处理领域得到了有效应用,为3D视频压缩编码提供了新的发展思路。为了进一步提高3D视频编码效率,本文借助于深度学习技术,利用3D视频的空域、时域和视点域相关性,开展了基