【摘 要】
:
图像相似性度量旨在通过提取和描述图像的特征来评估给定的图像之间在内容上的相似程度,是计算机视觉以及模式识别领域的重要组成部分。本课题组承担的《国家自然科学基金项目相似性检测系统》已投入运行,实现了申请书文本的相似性检测。但申请书中还存在大量的图像抄袭现象(设计图、方案图等),为实现申请书内容的全覆盖检测,对海量图像的相似性检测已是迫在眉睫,提出了新的技术挑战。目前主流的图像度量学习网络结构是基于对
论文部分内容阅读
图像相似性度量旨在通过提取和描述图像的特征来评估给定的图像之间在内容上的相似程度,是计算机视觉以及模式识别领域的重要组成部分。本课题组承担的《国家自然科学基金项目相似性检测系统》已投入运行,实现了申请书文本的相似性检测。但申请书中还存在大量的图像抄袭现象(设计图、方案图等),为实现申请书内容的全覆盖检测,对海量图像的相似性检测已是迫在眉睫,提出了新的技术挑战。目前主流的图像度量学习网络结构是基于对比约束的监督学习算法,训练时需要大量的标注数据,耗费的成本是巨大的。此外,这些算法在相似性度量时只关注图像本身,并没有有效利用与图片内容相关的其它模态信息。因此,如何使用无监督对比学习技术,在无标注的数据集上训练视觉表示模型,并进一步利用多模态信息,是研究的热点趋势。论文围绕国家自然科学基金项目申请书图像相似性检测中人工标签极度依赖、无法有效利用文本信息以及融合文本时易导致歧义性问题,展开主要研究及应用:(1)针对人工标签极度依赖问题,提出基于对比学习的无监督图像相似性度量算法。论文将自监督学习中的对比学习引入到图像相似性度量当中,解决了此前图像相似性度量方法对人工标签数据的极度依赖问题。并且,不同于一般的对比学习模型需要通过下游任务的微调来进一步提升模型的性能,论文提出的模型能够将输入数据映射到一个可以直接使用距离来表示实例之间相似性的度量空间当中,而无需下游任务。根据理论分析和实验结果,表明了提出的模型可以有效利用无标签数据,而不用再依赖数据集的人工标注,并有不输于监督学习模型的精度。(2)针对图题文本融合模型中的歧义消解问题,构建了基于文本多映射特征模块的图文多模态融合结构。论文通过构建一个图文多模态融合结构,以解决当前图像相似性度量模型缺乏有效利用与图像内容相关的图题等文本模态信息问题。此外,针对引入文本信息之后带来的文本歧义性问题,模型在处理文本信息时采用了一个多映射处理模块,通过将一个文本信息映射到语义空间的多个点,从而挖掘出文本隐含的多种语义信息,实现文本多义兼容。通过理论分析和实验结果,融合了文本信息之后的模型,更够在图像相似度计算时有效利用文本信息,达到了更好的效果。(3)将以上成果实施,应用于某基金申请书的图像相似性检测。论文针对某基金项目的项目申报书中存在的图像相似性检测问题,以提出的基于文本融合的无监督图像相似性度量算法为基础,设计并实现了一套针对基金项目申请书的图像相似性检测系统,更高效地检查出科研成果的抄袭行为。经过测试,该系统性能稳定,能够快速、准确地检测出基金项目申请书中内容相似的图像,达到了理想的效果。
其他文献
透明物体检测在智能机器人、智慧实验室和智能实验教学等领域中发挥着重要作用,推动着科技生活的发展,但对透明物体的检测具备一定的挑战性,由于透明物体本身没有自己的纹理属性,其外观很大程度上依赖于环境背景,在复杂的环境下对透明物体的准确识别存在很大难度。目前深度学习技术广泛应用于目标检测任务中,使得检测的性能得到很大提升。因此,本文将深度学习技术应用于透明物体检测领域,提出了基于CNN的真实场景下透明物
目的:通过收集研究冠心病患者的临床资料,比较急性冠脉综合征与慢性冠脉综合征的中医证候类型分布,探讨各证候类型的冠心病危险因素相关性,分析新疆冠心病患者疾病全过程的特点,为急、慢性冠脉综合征的预防与治疗提供中西医结合临床依据与参考。方法:本课题采用回顾性调查研究,在新疆医科大学附属中医医院和新疆乌鲁木齐市中医医院两家大型三甲医院心内科,共收集1006例冠心病有效病历,对患者的基本情况、中医证候学、危
有效感知透明物体可以帮助家庭服务机器人或盲人视觉辅助等应用的扩展,由于透明物体外观光线反射、折射和投射的特性可能会使深度传感器失效,大多数系统通过声呐或激光雷达多传感器融合方法来感知环境,但仍会受到透明物体导致的扫描不匹配的影响,基于纯图像视觉的方法则比高精度传感器更便宜,更可靠,本文以基于卷积神经网络的目标识别为研究方向,探究了真实生活场景下的透明物体识别方法,主要完成了以下的工作:(1)透明物
非编码RNA与多种生物机制过程密切相关,其突变和失调会诱导包括癌症在内各种疾病的发生。机器学习方法不仅可以减少资源消耗,还可以加速药物发现,因此,从机器学习角度分析RNA分子,有助于研究RNA的生物机制和功能。本论文主要以病毒-药物关联、lncRNA-蛋白质相互作用为研究对象,从以下几个方面提出机器学习模型和算法,从而为相关疾病的诊断与治疗提供有效线索。首先,基于正则化方法提出最小二乘法模型VDA
自人类进入信息化社会以来,大数据已深入到各行各业中,有效利用数据挖掘技术可从大数据中挖掘出有价值的知识从而带来巨大的经济效益,故大数据环境下的数据挖掘已成为研究热点之一。随机森林(Random Forest,RF)算法是一种典型的集成学习算法,因具有超参数少、分类性能优且易于并行化等优点常被用于数据挖掘。但在大数据环境下,随机森林算法由于过多的决策树数量导致其分类时间过长,这已成为随机森林算法应用
随着互联网的高速发展以及智能终端的快速普及,互联网用户可以使用自己的智能设备记录文字,拍摄照片和录制视频,通过互联网上传到各自的社交媒体平台上进行个性化的自我展示。随着互联网用户数量的不断增加,用户通过互联网上传到社交媒体平台上的相关数据量呈现指数级的增长。相关数据的载体由文字到图像再到视频,包含了个人用户的大量隐私信息,一旦这些数据中的人脸图像或视频被不法分子恶意收集,并且使用相关技术对人脸图像
目的:本研究旨在观察向颞下颌关节腔内注射不同浓度的医用臭氧,对大鼠颞下颌关节骨关节炎(TMJOA)的影响。方法:SD大鼠随机分为两组,即:对照组(A组)与实验组,实验组复制出TMJOA模型3周后,随机处死2只大鼠,用于验证是否出现骨关节炎样病变。随后将实验组分为TMJOA组(B组)、医用臭氧20μg/m L组(C组)、医用臭氧30μg/m L组(D组)、医用臭氧40μg/m L组(E组)4组,C、
随着互联网的飞速发展以及互联网应用场景的不断扩大,条码作为信息的载体,其使用频率及使用领域也在不断扩大。在目前人类生产生活中条码技术已经成为了一个不可或缺的技术。我国作为世界上最大的制造业国家,条码被广泛应用于工业领域,为产业的信息集成提供了便利,同时也带来了条码识别技术高效及精确度的要求。在实际工业生产中自然采光差,存在较多主动照明光源,震动等影响因素,造成条码定位失败。本文针对工业条码检测的实
目的:探讨温阳通络针灸对小儿脑瘫运动功能的影响,为优化治疗方案提供临床依据。方法:采用回顾性病例对照研究方法,根据诊断及纳排标准,纳入2021年1月至2022年1月间在新疆医科大学第一附属医院收治的脑瘫患儿70例,在康复治疗的基础上加用温阳通络针灸的患儿,纳入治疗组(温阳通络针灸结合康复组),单纯予康复治疗的患儿,纳入对照组(单纯康复组),每组各35例。治疗组予以温阳通络针灸结合康复治疗。针刺治疗