基于Transformer的图像修复方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:jiajiadedaan1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像修复是恢复和还原二维图像中破损、缺失或者退化区域的信息,并且恢复的信息需要与图像的上下文语义和全局的结构、纹理保持一致。大部分深度学习的图像修复方法使用卷积神经网络对破损图像进行端到端的修复,最新的图像修复方法尝试在图像修复环节引入结构信息,并将图像修复过程划分为破损区域结构信息预测和基于结构信息的完整图像修复两个阶段,提升了图像修复效果。但是结构信息指导的图像修复仍有两个问题需要解决,其一是在图像修复任务中引入结构信息缺乏理论证明和详细性能的分析,其二是引入连续型的图像梯度还是离散型的图像边缘能够更好的辅助图像修复的问题缺乏深入研究。对于第一个问题,本研究结合修复模型的泛化误差上界和互信息理论,对图像修复任务中引入以结构信息等额外辅助信息的合理性给出证明,证明引入预测的结构信息能够降低模型泛化误差上界,从而提升模型性能。对于第二个问题,本研究从深度学习的函数逼近角度证明模型逼近连续值函数的能力优于逼近阶跃函数,因此图像修复任务中应该引入连续型的图像梯度而非离散型的边缘信息。此外,在理论分析的最后部分,本研究从信息熵和矩阵条件数两个角度,进一步揭示了图像的连续型梯度相较于离散型边缘具有两个优势:不需要预设超参数、图像结构修复模型的学习目标具有唯一性。本研究在上述理论证明的基础上,首次提出基于视觉Transformer架构的三阶段图像修复模型,在使用图像梯度信息的基础上,引入图像灰度图信息作为修复辅助信息,利用三个图像修复公开数据集验证了所提模型的有效性,证明本文所提三阶段图像修复方法在多个数据集上的指标均优于6个基线模型。为了优化本文提出的三阶段图像模型,本文借鉴多任务学习策略,以视觉Transformer架构为基础架构,构建了一个多输入输出的端到端图像修复模型。在三个图像修复数据集上的实验结果表明该端到端模型性能接近三阶段模型。在工程和学术研究贡献上,本研究工作设计了针对图像修复、图像增强等,图像像素级别密集预测任务的通用像素级别预测框架,该框架整合了图像修复常用的公开数据集和图像修复的一些重要模型。本文提出的框架充分考虑了可拓展性,保留了大量自定义接口,可以快速添加新的图像修复基线模型和数据集。框架集成了模型训练、日志记录、训练权重断点保存、多计算设备训练等功能。使用该框架,可以使研究者聚焦于模型创新和训练策略上,从而减少重复的模型训练等相关基础性工作,为基于深度学习的图像修复相关的研究提供了极大便利。综上,本研究首先从理论角度证明了在图像修复任务中引入额外信息的合理性,并根据理论的分析与证明结果提出了一个基于视觉Transformer架构的三阶段图像修复模型,该模型在三个公开数据集的性能均优于基准模型。为了进一步优化三阶段模型,本研究提出了一个基于视觉Transformer架构,并且使用了多任务学习策略的端到端图像修复模型,该模型在三个数据集上的结果优于三阶段模型。最后提出了一个图像修复任务专用的深度学习框架,该框架可以减少研究人员的冗余性工作,促进深度学习下的图像修复技术的发展。
其他文献
近些年来,知识产权保护越来越受到世界各国的重视。专利作为知识产权的一种重要形式,数量在逐年增加。为了更好地使用数量愈加庞大的专利,首先需要理解专利的问题。专利的问题包括两个方面,即专利文本中的问题句和专利问答中对专利的提问。专利作为一种复杂的科技文本,是围绕问题句进行展开的。因为问题句描述了专利所要解决的问题,所以识别问题句是专利问题理解的关键。目前,通过计算机识别专利中的问题句面临着专利问题句相
学位
随着业务规模与需求的变化,传统单体系统架构开发效率低、维护成本高、扩展能力弱等问题凸显。微服务架构具有混合开发、灵活扩展、便于维护等特点,将遗留系统重构为微服务架构可以提高软件系统开发运维效率、提升系统可扩展性。但是,在微服务重构的过程中面临诸多挑战,数据库拆分就是其中需要重点解决的问题。不对数据库拆分或者拆分不当将导致重构后的系统性能下降、可用性降低。本文针对微服务重构过程中的数据库拆分问题,提
学位
股票预测是学术界近年来热点研究之一,但股价波动受多种因素影响,预测难度较大。政策作为国家长期发展规划,保障着证券市场的平稳运行,股市固有的提前预期特性使得国家政策变动必然会反映到股市活动中,故挖掘政策因素的影响可为投资者提供有效参考信息。历来很多文献致力于研究政策与股票市场波动的关系,但仍存在两个不足:一是针对政策内容的分类标准较少,且研究人员在对政策进行分类时多采用人工标注方法,分类成本较高;二
学位
我国内蒙古地区以察哈尔蒙古语为蒙古语标准语,蒙古国以喀尔喀蒙古语为蒙古语标准语。随着各类手机智能助手以及智能家居的普及,人机交互成为了研究热点。语音识别技术是人机交互中必不可少的一个环节。目前,英语、汉语、德语等语言语音识别系统已经达到了使用要求,但是基于喀尔喀蒙古语的语音识别研究仍处于初级阶段。为了推进蒙古语智能语音技术发展,本文根据喀尔喀蒙古语特点研究了基于深度学习和迁移学习的喀尔喀蒙古语语音
学位
水平基因转移(Horizontal Gene Transfer,HGT)事件广泛存在于自然界中,它帮助受体物种绕过突变及重组获得新基因,加速基因组革新进程,所以准确识别HGT事件是探究物种之间真实演化关系的重要一环。由于发生转移的基因位置倾向于通过谱系保留,因此可依据基因树与物种树之间拓扑结构不一致性对HGT事件的识别进行研究。RIATA-HGT算法是目前有效识别HGT事件的算法之一,但该算法对于
学位
内蒙古历史作为中华民族历史沃土中的一颗璀璨明珠,有着悠久的文化传承。目前历史的记载都是厚重的文本,非专业人士梳理和理解语义关系难度较大。其实RDF(Resource Description Framework,资源描述框架)用三元组集合的方式来描述客观世界事物和关系的思想满足用简单的二元关系模型描述历史知识事物关系的需求。RDF作为一种元数据语言,其三元组表达形式包含语义信息,且不受具体语法表示的
学位
调频调制是无线通信中常用的调制方式之一,它广泛的应用于卫星通信、蜂窝电话的系统、高保真的音乐广播等。但是当接收到的调频无线电信号较弱,信噪比较低时,传输过程中受到诸多畸变,会对接收端的语音的质量产生较大的影响。针对以上诸多畸变对无线通信语音信号的影响,为了保持可靠的无线电通信,同时为了降低传输过程中的诸多不确定性因素对调频语音信号的影响,设计一个高效及鲁棒的无线通信语音信号增强模型具有十分重要的意
学位
随着学术网络的不断发展,学者影响力预测得到广泛研究。该研究能够帮助各单位发现有潜力的研究人员,有助于决策者做出合理的招聘决策或资金分配。传统的学者影响力预测方法主要在同构学术网络中考虑学者的被引频次、合作关系、合作次数以及合作时间等因素,综合衡量并预测学者的影响力。而基于异构学术网络的学者影响力预测能够捕捉学术主体之间更多的互动与沟通,能更加准确地预测影响力。但在异构网络中使用随机游走模型对学者影
学位
随着车联网技术的快速发展,车联网产生的数据量急剧增加,而集中式的云计算并不能对时延敏感型的车联网任务进行高效的处理,车载设备应用的服务质量难以得到保障。移动边缘计算技术可以将云计算的资源下沉到网络边缘来保障实时性的服务需求,将边缘计算与车联网技术融合是实现时延敏感型的车联网智能应用的有效途径。本文研究面向车联网服务需求的移动边缘计算环境中边缘服务器的部署问题,充分考虑了车辆的空间性和移动性以及车联
学位
近年来,人工智能技术突飞猛进发展,可预见将深刻改变生产生活的各个方面。作为人工智能技术的代表,神经网络也为计算机视觉领域带来了新的思路,深度影响着目标检测技术的发展。行人检测作为视频监控、无人驾驶、智能机器人等方面应用的技术支撑,具有广阔的应用前景,是目标检测中最值得研究的方向之一。本文在分析了现有目标检测算法检测性能的基础上,对使用卷积神经网络基于免锚的行人检测方法展开研究。本文的主要研究内容如
学位