基于强化学习的图像构图优化算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:anwencheng2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动设备的发展,生活中人们基本都有相机或者含拍照功能的手机,但大多数人把摄影作为爱好或用来记录生活的工具,只是用来自拍或在外郊游时拍摄风景,对如何设计和拍摄好一张图像或艺术作品知之甚少。构图是将作者的想法和意图通过画面内容表现,主要体现在视觉形式上。构成一幅画面的特定元素是形状、光、颜色、线条和对象的结合,在画面上这些元素应该是有机互连,紧密依托的。构图决定了画面的各个部分之间的关系,构成了一个统一的整体。一个好的构图,可以将平凡的东西变得无与伦比,突出主题;相反,一个不好的构图,则会将一个有魅力的主角变得俗不可耐,降为闲角。因此,研究让计算机来替代人类进行图像自动构图已经成为一个热点研究课题。尽管图像构图领域已经有一些解决方案,但目前的构图优化算法在面对复杂的环境时,无论速度还是精确度依然无法满足人们的需求。现有的方法对图像构图的优化没有考虑图像类别的差异,如针对风景图和有聚焦物体图(含有关键目标)实行统一的构图优化策略,实际上这两类图像的构图方式是有本质区别的。本文以构图优化为研究目标,深入分析归纳现有方法的缺点,提出了两个基于强化学习的图像构图优化算法。本文提出的图像构图优化算法主要是通过图像裁剪的方式得到最优构图区域,主要工作如下::第一,提出了基于强化学习的缩略图生成算法(称为RL-AT)。本文将缩略图的生成建模为序列决策过程,每一步对图像进行裁剪通过定义的裁剪动作,通过不断选择当前区域最优的裁剪子区域来找到图像的最优裁剪区域。在深度强化学习的框架下,本文通过使用深度网络来学习每个裁剪步骤的最佳裁剪位置,最后的裁剪区域便是生成的缩略图。本文将裁剪窗口与最佳裁剪窗口之间的中心偏移距离设计成奖励函数的一部分,除了提高裁剪效果之外,它还可以通过后处理技术,在原来的预测裁剪窗口中生成特殊长宽比大小的缩略图,如4:3、1:1等。第二,针对风景图和有聚焦物体图构图策略的差异,提出了一种多智能体协作的深度强化学习框架来解决图像构图优化问题(称为CDRL-IC)。考虑到影响风景图和有聚焦物体图构图的主要因素不同,且具有良好构图的图像是各种因素综合的结果。因此,本文将影响有聚焦物体图的情感注意力信息与影响风景图的彩色图像的上下文信息一起用于图像裁剪。为了有效地使用情感注意力图和彩色图像进行图像裁剪,它们由两个协作智能体(彩色图像智能体和情感注意智能体)进行处理。每个智能体负责根据输入信息检测目标裁剪区域,并做出主要决策。同时,它还允许其他智能体共享信息并共同做出最终决定。这种协作式学习过程可确保从不同角度共享和构建知识,从而获得对图像的更深刻理解。为了有效地在奖励函数中评估裁剪质量,设计了集成情感注意力信息的裁剪质量指标WIoU。本文提出的CDRL-IC模型可以用于图像裁剪和缩略图生成,已经在各种数据集上进行了测试,可用于图像裁剪和缩略图生成。实验表明,本文提出的CDRL-IC模型优于这些基准数据集上的最新方法。
其他文献
特征提取是数据分析中的核心步骤之一.如何从海量的数据中提取其有用信息已成为目前应用数学与模式识别领域的一个热点问题.常用的特征提取方法包括主成分分析(PCA)、线性判别分析(LDA)、局部保持投影算(LPP)和非负矩阵分解(NMF).其中,非负矩阵分解(NMF)是主要针对非负数据的一种特征提取方法,其在人脸识别、聚类及高光谱分解等方面有着广泛的应用.然而,传统NMF还存在一些问题,比如没有充分利用
在现实工程问题中,多目标优化问题(MOPs)是一类非常常见的优化问题。多目标优化问题通常包含两个或两个以上相互冲突的目标。近年来,一系列针对不同类型多目标优化问题的多目标智能优化算法相继提出。然而,对于一些具有复杂的Pareto最优解集或最优端面的复杂多目标优化问题,它们的Pareto最优端面不同部分具有不同的收敛难度或者逼近的困难。因此,这类复杂多目标优化问题能有效地检验多目标智能算法的种群多样
目前,移动机器人的定位系统及算法在室内环境中已经取得了较好的定位效果,但是这些系统及算法在室外运行时会由于室外非结构化的环境、噪声和光照等各种因素的影响而无法很好地运行,因此室外移动机器人的定位仍然存在着许多问题亟待解决。本文主要研究使用视觉的传感数据在室外环境下移动机器人的定位问题,主要的研究内容如下:首先,针对移动机器人的定位问题,本文主要利用的是贝叶斯滤波的框架,已知贝叶斯滤波主要是通过运动
互联网技术发展迅速,网络文本信息激增。信息传播迅速而广泛,对社会有着重大的影响,因此高效地分析和处理文本信息变得尤为重要。文本分类是处理文本信息的关键技术之一,它可以帮助企业等各种机构有效地组织信息。因此,文本分类技术的研究在社会应用中具有重要意义。在文本分类技术中被广泛使用的循环神经网络(Recurrent Neural Network,RNN),由于其有时间方向的传播和层与层之间的传播的两个维
近年来在国家优惠政策的支持和计算机视觉技术的发展,安防监控及计算机视觉相关产业快速发展,政府、公共场所、火车站、企业、城市、区民小区都跟随国家的政策和计算机视觉产业的需求,加入到安防产业的研究和落地,由于智慧城市和大数据城市的打造,安防相关产业一直保持高增长态势。随着人工智能和计算机视觉技术的发展,人脸、行人、车牌等成为了重要的监控对象。在大数据的不断发展,人脸检索算法需要消耗大量的检索时间,同时
机动目标跟踪无论在军用还是民用领域皆有广大的应用需求与实际意义,也一直是热点研究方向。在众多机动目标跟踪算法中,交互式多模型(Interacting Multiple Model,IMM)是应用最广泛的一种算法。然而,传统IMM算法在跟踪机动目标时,往往会出现模型库庞大导致计算量剧增、模型库难完全匹配目标运动状态的问题。针对上述问题,本论文基于模糊信息处理原理,引入目标模糊语义信息,重点研究基于特
生物特征识别技术是利用人固有的生理特征和行为特征进行个人身份识别的技术,已成为应用数学和信息技术领域非常活跃的研究方向.人脸识别是生物特征识别的一种形式,其需要在计算机的辅助下进行,并具有非接触性和非强制性等优点.人脸识别的关键在于提取人脸图像中的特征信息,非负矩阵分解(NMF)是一种有效的图像数据特征提取方法,其能够提取人脸图像中有意义的非负特征信息.但是传统的非负矩阵分解算法没有充分的利用样本
随着信息时代的到来,作为信息的主要载体,图像的数据量也在不断地增长。因此,在大规模图像数据中利用图像检索技术快速检索出相似的图像信息成为了研究的热点方向。传统图像检索技术分为基于文本和基于图片内容的图像检索技术两种。但是它们存在标注人工主观性以及高数据维度问题,会导致存储及计算资源过大。为了更好地减少存储空间以及提高检索速度,在图片特征处理上采用哈希编码成为现在的主流。基于哈希的图像处理方法包含特
随着云计算、雾计算等网络技术的发展与应用,越来越多的用户开始体会到将个人重要数据使用公有服务器进行存储和计算的优势。就以云计算技术为例,云计算技术可以保证用户数据的可用性和完整性,并且按照各个用户的需求进行个性化服务、海量资源共享以及按照使用服务进行精准消费。因此,对于这种便利且高效的网络技术服务架构,越来越多的用户、企事业单位等会把自身重要数据委托给云服务提供商进行管理。然而,对于日益增长的数据
尽管在NLP领域中已经有很多相关研究,但在现实世界中对问题答案对进行排序仍然是一个挑战:(I)首先,开放域知识图(KGs:Knowledge Graphs)的背景知识在问题回答中起着至关重要的作用。现有的基于上下文的模型可能会给否定答案比肯定的答案分配更高的分数,因为否定答案与单词级别的给定问题更相似。然而,借助背景知识,我们可以正确识别基于KG中包含的相对事实的肯定答案。(ii)此外,现实应用中