【摘 要】
:
得益于方法和模型的进步、计算能力的增强以及标准开放数据集的不断完善等,机器学习尤其是计算机视觉日益成为计算机科学方向最重要以及最受关注的研究领域之一,如何使计算机在相关问题上达到甚至超越人类的智能水平引起了广泛的研究兴趣。人类十分擅长通过在不同事物之间建立联系来认识、理解和改造世界。本文重点研究了通过分析、建模和利用研究对象之间的结构化关系来提升机器学习模型在图像识别和图形化布局问题上的效果。我们
论文部分内容阅读
得益于方法和模型的进步、计算能力的增强以及标准开放数据集的不断完善等,机器学习尤其是计算机视觉日益成为计算机科学方向最重要以及最受关注的研究领域之一,如何使计算机在相关问题上达到甚至超越人类的智能水平引起了广泛的研究兴趣。人类十分擅长通过在不同事物之间建立联系来认识、理解和改造世界。本文重点研究了通过分析、建模和利用研究对象之间的结构化关系来提升机器学习模型在图像识别和图形化布局问题上的效果。我们首先研究了如何利用图像与图像之间的二元比较关系来解决小样本图片分类问题。通过对不同图片进行比较以判断两张图片是否属于同一类别有助于提升图片分类模型的准确率,尤其是当训练样本不足,深度学习模型难以从少量数据中泛化时。度量学习(Metric Learning)正是基于这样的思想被提出的,它是小样本图像分类的重要方法之一。本文研究了基于层次比较的度量学习策略,其主要目的是通过在卷积神经网络的不同层次上对图片特征对进行比较,使得深度学习模型对图片距离的度量更加可靠。为了进一步提升小样本图像分类的效果,我们还提出在特征层上添加随机的高斯噪声,以解决小样本图像分类问题中由于训练样本过少导致的过拟合问题,增强模型的鲁棒性。大量的实验结果验证了本文中所提方法的有效性,对模型的分析实验也证实了基于不同层次的度量学习结果具有异质性,能够互相协作以提升分类正确率。图像之间的对比关系有助于解决小样本图像分类问题,在此基础上,本文进一步研究了一张图像中视觉关系的识别。我们用<物体1-关联词-物体2>这种形式的三元组来表示视觉关系(Visual Relationship),它描述了图片中的物体以及物体与物体之间的关联关系。本文首先提出利用三阶张量来表示视觉关系的标签空间,并且,不同于一般的图像识别深度神经网络中利用全连接层对提取的图像特征进行分类,本文提出张量合成层(Tensor Composition Layer)来完成从图片特征到视觉关系的分类。关系的张量表示方式和张量合成层不仅能大大降低模型的参数数目,还能够捕捉不同视觉关系类别之间的关联,有助于从整体上识别图片中的多个视觉关系。为了验证我们所提出的方法和模型的有效性,我们测试了张量合成网络(Tensor Composition Net,TCN)在视觉关系预测和基于视觉关系的图片检索任务上的性能,并与现有的多标签分类方法以及视觉关系检测方法进行了比较。实验结果显示,我们的方法对图片中视觉关系的识别更加准确,根据预测结果对图片进行检索也非常有效。本文还进一步研究了如何利用结构化关系来刻画图形对象的布局以解决图形化布局生成问题。更具体地说,我们通过树形结构来建模不同图形元素之间关系以解决学术海报的自动化布局问题。不同于很多已有的工作研究在像素级别上生成目标图片,本文主要研究利用机器学习模型辅助生成结构化的学术海报布局问题,这其中面临的主要问题是需要从整体上对各个布局元素进行规划。针对学术海报布局任务,我们首先人工收集并标注了85对学术论文和海报布局信息,并基于标注的学术海报布局数据集训练了一个贝叶斯模型来对海报中的元素属性进行预测。其次,学术海报整体上通常由若干个划分块组成,本文提出利用二叉树来建模和表示不同划分块之间的组织关系,并基于这种布局表示方法设计了一种递归的学术海报划分算法。在实验阶段,我们不仅与其它的机器学习方法进行比较,也与人工设计结果进行了对比,定量和定性的实验结果都说明了我们方法的有效性。综上所述,本文针对计算机视觉中的图像识别和学术海报布局问题,研究了如何利用不同形式的结构化关系来挖掘具体问题中研究对象之间的关联信息,探索了二元、三元以及树结构的关系建模以及将其与机器学习模型相结合以解决相应的实际问题。
其他文献
第一部分烟曲霉感染时CEBPD和PTX3表达的变化目的:体内和体外实验探讨烟曲霉感染时CEBPD和PTX3的表达变化。方法:利用烟曲霉孢子刺激THP-1细胞和C57BL/6小鼠,检测CEBPD和PTX3蛋白表达变化;同时收集肺曲霉感染患者手术切除的肺组织蜡块,检测肺组织中CEBPD和PTX3蛋白表达;生物信息学数据库预测CEBPD在PTX3基因启动子序列中潜在的转录因子结合点。结果:(1)与正常对
3D(三维)折线焊缝大量存在于海工装备、大型起重装备、物流运输装备等制造领域中,属于典型的复杂轨迹焊缝。3D折线焊缝工件由不同折角角度的折线板和平板通过定位焊缝装配而成,通常为大型构件,难以使用高精度夹具严格固定其位姿,且通常为中厚板,要求摆动GMAW(熔化极气体保护焊)工艺。目前,3D折线焊缝几乎全部通过人工焊接。与此同时,也存在机器人离线编程模式或示教模式实现自动焊接。机器人离线编程模式和示教
非线性时间序列的复杂性及相似性广泛的存在于复杂系统之中,因此准确的度量时间序列的复杂性及它们之间的相似性至关重要。虽然研究表明多尺度熵方法是一个有效的度量时间序列复杂性及相似性的技术。然而依然存在这样的三个问题:(1)如果两个时间序列同时都受到第三方的影响,现有的多尺度熵方法将难以得到它们真实的同步性;(2)两个时间序列之间的非同步性未必总是对称的;(3)当时间序列较短时,多尺度熵方法也许无法获得
作为计算机视觉领域中研究最为广泛的课题之一,人脸识别近年来取得了很大进展。但是在复杂的非约束场景下,人脸识别系统的各个关键技术模块,如人脸检测、关键点检测和特征提取等,仍然受到光照、姿态、表情和遮挡等多种因素的制约。与其它因素相比,不同姿态的人脸呈现出更为明显的纹理和特征差异,极大地限制了人脸识别在实际场景中的应用。基于姿态正规化的人脸识别,在对人脸特征判别之前预先进行人脸角度的校正,能够有效降低
现代航运面临从“港到港”的运营模式转变为“门到门”的物流服务,以及全球永续发展要求的挑战。如何引导航运业适应行业的发展趋势,切实迈向永续发展是一个亟待解决的问题。本文通过文献综述,了解了航运规划、港口规划、绿色航运规划和绿色港口规划的研究和实践进展,并通过实践调查了解了中国绿色港口规划和绿色航运规划的进展及认识,总结了航运规划和绿色航运的研究进展及存在的问题与不足。结果表明:(1)港口为航运中的一
重症急性胰腺炎患者(severe acute pancreatitis,SAP)是临床常见的危重病,死亡率达17%-39%,以持续器官功能衰竭(persistent organ failure,POF)为关键特征,其中在病程早期(1周内)发生POF的患者是SAP中较重的一种,通常认为和不良预后相关。国内外临床指南对坏死的干预建议需延迟至四周后胰腺坏死成熟/包裹后,而在实践中,此类SAP合并早期PO
植物在整个生命周期中都需要糖。在植物中,糖主要在光合器官叶片中合成,并作为双糖运输到植物的其他部分,如蔗糖到筛管。植物可以在根系、花粉和果实等库组织中以蔗糖的形式或转化为各自的单糖葡萄糖和果糖利用这些糖。毫不惊奇,糖对植物产量和各种农学性状至关重要,如在提升果实品质中起着主要作用。糖在整个植株水平或细胞内和细胞间的分配对果实的生长发育和品质构造至关重要。果实成熟细胞不同细胞器中糖的种类和丰度不同,
热障涂层(Thermal barrier coatings,简称TBCs)由于具有高熔点、低热导率和耐腐蚀等优点,被广泛应用于航空发动机、燃气轮机的热端部件,是当前高性能航空发动机不可或缺的关键隔热技术。实现高性能航空发动机的跨越式升级越来越依赖于热障涂层向高隔热、长寿命的方向发展。然而,涡轮叶片结构复杂、承受的高温环境极端,热障涂层应用过程中的隔热效果和服役寿命难以测量和评价。评价手段不完善导致
随着现代多媒体技术,人工智能的飞速发展,摄像镜头深入到人类社会生活的方方面面,每天产生的数字图像呈指数级增长。然而,采集,编码,传输过程中的图像会经常受到噪声的干扰。图像中的噪声不仅会降低图像质量而且直接对后续的图像处理比如目标识别,目标跟踪等产生不良影响,因此为了获取高质量的数字图像,需要对退化图像进行去噪处理,从观测到的噪声图像中尽可能的保留原始图像信息,去除噪声。本文从统计分析与张量分解的角
玉米是我国三大粮食作物之一,种植面积和总产量目前位居世界第二位。玉米是重要的粮食资源和工业原料,其产量、质量、储量对国家安全具有十分重要战略意义。2020年,我国玉米产量2.6067亿吨,种植规模与产量稳步增长,与此同时,对玉米“种-管-收”全程机械化提出了更高的要求,尤其在玉米播种环节,播种质量的优劣直接影响后期管理与产量。在提倡规模化生产的现代农业背景下,提高玉米播种合格率、推广玉米精量播种技