自动商品抠图

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hsgnln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了更有效找到商品与用户的匹配,个性化广告推荐根据用户的相关信息,对每个用户实施不同的商品推荐。为了更好的展现商品,个性化的创意性广告需求量大增。但是个性化的创意性广告的制作,需要大量的素材图片,其中包含去除背景的商品图。通常人工图像抠图需要几分钟到几十分钟,为了减轻和替换大量的人力劳动,自动化商品广告制作可以带来很大的收益。
  本文提出以非人商品图抠图和人物商品图抠图两个分支,来解决自动商品图抠图问题。非人商品图抠图采用显著性物体检测来提取图像中的商品,提出渐近特征抛光网络(Progressive Feature Polishing Network,PFPN),此方法利用了一个简单有效的特征抛光结构,以递归的方式逐步改进多级特征,使其更加准确和具有代表性,最后提高预测结果的语义准确性和细节精细度。并且在5个通用开源显著性检测数据集上,指标平均绝对误差(MAE)、F度量和S度量超过了其他16个前沿显著性检测方法,同时在真实非人商品数据集上的测试结果通过率达到了70%。
  人物商品图抠图采用两阶段的方式:语义分割和基于分割的图像抠图,此方式首先在真实分割数据集上训练得到分割结果,然后在合成抠图数据集上,以分割结果和原始输入图片作为抠图模型的输入,对分割结果的细节部分做优化,得到最终的抠图结果,这样解决了抠图数据匮乏的情况下,将抠图能力从合成数据迁移到真实数据上。其中,分割模型采用多尺度并行结构和池化金字塔模块,使得特征保持高空间分辨率的情况下,大幅扩大模型感受野,得到语义上更准确且分辨率更高的分割结果。抠图模型基于分割结果做边缘细节优化,对特征采用索引下采样和上采样,避免细节信息被平滑掉,且对细节有更好地保留;损失函数采用全局误差、局部误差、Gabor误差和合成误差,使得全局语义保持的情况下,同时优化边缘细节。
  本方法为自动化商品抠图提供了一个有效的解决方案,降低了抠图的人力成本且提高了抠图效率,同时扩大了商品素材的可用范围,促进了自动化创意广告生成。
其他文献
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标
由于影视和游戏制作等领域的需求驱动,三维人脸重建一直是计算机图形学中重要研究方向。与设计师人工建模不同,三维人脸重建主要从输入数据中自动塑造人脸几何。输入类型主要有:2D数据(图像或视频),2.5D数据(立体图像或视频、深度图),3D数据(点云、网格等)等。其中基于单张图像的三维人脸重建输入设备最简单,输入数据量最少,互联网上的素材量最大,因此在面向普通用户的消费级的应用中也最具有潜力。近年来,随
三维重建是计算机视觉中的研究内容之一。准确快速地获取场景中的三维信息(深度)在逆向工程、机器人、导航、增强现实等领域中有着重要作用。在获取场景深度信息的方式上,相比于较为昂贵的激光雷达、结构光扫描仪等仪器,被动式立体匹配方法通过较为廉价的设备(双目相机)即可获取相对较高精度的深度信息。本文借鉴深度学习、数理统计等理论和方法,深入研究了相机标定以及双目立体匹配算法,并将其用于高精度三维人体模型重建。
人体的视觉感知与理解在安防监控、自动驾驶、人机交互、视频内容分析等方面有诸多的应用前景,因而一直是计算机视觉领域的重要研究课题,受到工业界和学术界的广泛关注。多年来,研究员们围绕这一课题中的关键技术展开研究,并取得了丰硕成果。然而,目前的技术研究大多是聚焦于其中的主流问题,技术覆盖不够全面,将这些技术落地到实际应用场景时,尚存在一些诸如恶劣光照条件下对人体的检测定位不够理想,对人体细粒度行为的识别
学位
使用消费级、低精度的深度相机对三维物体进行快速重建,在智能机器人、自然人机交互等领域具有重要的应用价值。由于消费级深度相机所采集的深度图像精度较低,噪声较大且易产生孔洞,如何实时、交互式、高保真度地重建真实场景的三维模型仍具有一定的技术挑战性。本文对基于稠密深度数据的实时相机跟踪与高精度表面重建进行了深入研究,对三维重建流程的几个关键环节进行了改进和提升,形成了解决方案。主要工作如下:  (1)针
学位
高光谱数据(图像)不仅包含目标的二维空间结构图像,也记录一维几十到几百个波段光谱响应曲线,分别描述目标的空间地物分布和详细光谱特征。高光谱图像上述独特的特性增加了其表示和重构的难度。如何通过恰当的模型假设,把高光谱图像内在的结构抽象为数学模型,有效利用空间信息、谱信息以及空谱联合信息是高光谱图像处理的关键。  高光谱数据是高维数据。低秩和稀疏表示是刻画高维数据低维结构的重要方式。稀疏和低秩假设有助
基于大数据驱动的图像转换技术是图像合成、虚拟现实和机器学习等领域中的重要研究内容,其研究进展在刑事侦破、文化娱乐及航天遥感等方面有着重大的应用价值。尽管计算机视觉领域在最近一些年取得了巨大地突破,但在一些具体的视觉任务中依然还有很长的路要走。对于图像之间的转换来说,如何建立不同域之间图像流形上的映射是一个比较难处理的问题。对于人类视觉来说,图像的理解与生成过程可以认为是人类眼球视觉细胞对于光线敏感
学位
随着数字经济的迅猛发展,人与信息交互的日常化、普遍化,从信息匮乏的时代走向了信息爆炸的时代。在这个时代,如何从海量的多媒体异构数据中寻找到自己感兴趣的信息对于消费者来说变得越来越困难。与此同时,如何高效地寻找到目标用户转换服务价值对于信息投放者来说也变得异常困难。由此,注重用户的个性化需求以及能够盘活长尾资源的个性化推荐系统应运而生。然而,随着平台化经济的快速发展,用户在平台内与物品的交互呈现多样
学位