基于GAN的彩色文档图像去光照方法研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:viviane_px349
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纸质文档是我们传递信息,表达思想的重要媒介,它包含大量信息,但是随着时间的推移,人们发现纸质文档存在着很多弊端,例如不易保存,难以检索等。随着电子设备的到来,文档数字化这个概念逐渐映入人们眼帘。将纸质文档以图片的形式保存在计算机中,方便存储的同时还易于检索。以往我们通过打印机、扫描仪等设备来存储纸质资料,如今随着手机等微型电子设备的普及,人们更倾向于直接用此类设备获取信息。与扫描仪相比,使用手机摄像头捕获的文档通常容易受到光照的影响,因为光源经常被相机或用户的手遮挡,即使没有遮挡,文档上的照片通常也是不均匀的。为了提高捕获文档的质量和可读性,本文研究了文档图像的光照去除问题。本文针对手机拍摄的具有不均匀光照影响的彩色文档图像,提出了一种基于生成式对抗性网络的光照均衡化方法。通过构建以ResUNet++作为生成器的生成式对抗网络,将合成数据以及拍摄的真实数据共同作为训练集去训练,通过神经网络预测,以此来达到彩色文档图片去光照的目的。为了证明本文方法的优越性,将本文方法与近年来比较流行的方法进行对比,试验结果表明本文提出的方法在去光照领域效果更好,模型泛化能力更强。最后为方便用户体验,设计并实现了一个基于Web的文档去光照系统。本文的主要工作如下:(1)本文提出一种基于CycleGAN的不均匀光照文档生成方法,为了解决训练数据短缺以及模型泛化能力弱的问题,通过设计基于随机参数的生成变换公式生成光照背景图并利用CycleGAN扩充随机信息,将生成的光照背景图与原图融合,借此人工生成大量模拟真实光照场景的不均光照文档图片,进而提高数据的丰富程度。试验结果表明,与直接使用光照背景图合成的不均匀图像作为数据集相比,该方法提高了模型的鲁棒性,去光照效果更好。(2)提出了以ResUNet++作为生成器的生对抗网络的彩色文档去光照模型,针对已有的文档图像去光照模型在学习过程中对图像通道间的依赖性考虑不足,而降低模型在彩色文档图像上的性能,本文提出利用ResUNet++作为生成器的方法,其中ResUNet++由残差模块、挤压和激励模块、Arous空间金字塔池(ASPP)和注意模块构成,利用残差结构可以构建更深的网络模型,空间金字塔池用来获取图像多尺度信息,引入注意力机制突出图像特征,解决模型退化问题的同时获取通道间的关联信息,改善通道间的相互依赖性,进而提高模型图像处理的性能。(3)设计并实现了一个基于Web的文档图像去光照系统,前端使用Vue框架实现,后端用SpringBoot框架实现,图像去光照服务采用PyTorch框架实现,同时为了实现大规模的文本图像去光照任务,在后端web服务和去光照服务之间使用Kafka消息队列作为服务间异步通信组件。保证了系统的稳定性。
其他文献
图像融合是指将图像中有意义的信息从源图像中提取出来并加以组合,使其生成的融合图像具有更大的信息量并利于后续应用。红外与可见光图像融合是图像融合中一个重要且经常发生的问题,红外图像具有明显的对比度,能够在恶劣天气下有效地将目标信息从背景中突出出来。可见光图像包含丰富的纹理细节,更加符合人类视觉的感知系统。红外和可见光图像融合将这两种特征结合起来,产生具有高对比度和丰富纹理的结果。本文提出一种新的基于
学位
互联网中,论坛贴子、观影评价、商品购买评价及回复、咨询、建议、即时聊天记录(MSN/QQ/We Chat)等内容通常是短文本。针对此类文本内容实现文本自动分类具有广泛用途,如根据影评内容判断观众对电影喜爱是正向、负向还是中立等。因此,基于自然语言处理技术的短文本分类问题成为研究热点。文本分类方法主要分为两大类,分别是基于传统机器学习的方法和基于深度学习的方法。在传统的机器学习方法中,文本分类精度的
学位
目前较为普遍接受的星系形成与演化理论认为星系停止恒星形成活动的过程伴随着形态的改变。大质量红色盘星系的存在对这一理论提出了挑战。已有研究表明,这类星系具有显著的核球成分,由此得出形态熄灭机制可能是红盘星系熄灭的机制之一。然而,其中的成分分解采用的是简单的核球加盘成分的模型。本文通过对近邻红色和蓝色大质量盘星系的多波段多成分二维图像测光分解获取其核球等子成分的物理参数,并进一步对比分析红色大质量盘星
学位
目前,单模态情感识别技术在很多领域都得到了广泛应用,比如表情识别、语音情感识别等。但由于单模态状态下的特征信息有时会出现数据量不足或受到外界影响严重等情况,所以多模态方法以其模态的多样性和模态之间的互补性正逐渐受到重视。虽然多模态融合的策略在一定程度上弥补了单模态的不足,但由于不同模态之间有一定的异质性也有一定的相似性,那么选取适合不同特征互相连接又不增加特征冗余的融合结构是很重要的研究方面;并且
学位
无线传感器网络(wireless sensor networks,简称WSN)中,能源问题是无线传感器网络在应用中面临的最重要挑战之一。无线充电技术无疑是解决能量问题的可行方案。在WSN中部署一个或多个带有大容量电池的无线移动充电器(mobile charger,简称MC),这被称为无线可充电传感器网络(wireless rechargeable sensor networks,简称WRSN)。在
学位
称呼语是言者用于指代听者所使用的名称,是言语交际中不可或缺的组成部分。它的语用功能丰富,可用于引起或维持听者的注意力,体现听者的年龄、性别、职业或种族等社会属性,或展现言者的意图和态度。各个民族都有自己的称呼语系统,它们之间既有差异,也有共性,这些差异和共性在翻译中有所体现。因此,研究称呼语的翻译有两方面的意义。一方面,它有助于加深我们对不同的称呼语系统的理解。另一方面,面对文化差异给翻译带来的难
学位
聚焦分类学习是当前多聚焦图像融合最流行的框架方法。这类空间域的方法将多聚焦图像融合视为一个聚焦/离焦分类问题:首先使用一个预训练的神经网络模型判断源图像的聚焦特性,进而通过拼接源图像中的聚焦区域来生成一幅全聚焦图像。虽然这种基于深度学习的融合框架已经显示出突出的性能,然而由于源图像聚焦二分类的基本前提并不完全符合实际,因此会导致融合质量下降。为了充分利用深度学习模型的优点并有效克服上述这些缺点,本
学位
随着计算机的普及和网络技术的发展,数字媒体内容的大范围和快速传播有了深厚的发展土壤,这促进了文化交流,但也由于其零成本的复制、秒速的传播使得盗版产品广为流传,数字版权面临着极大的挑战。为了解决这一问题,本文针对图像的篡改检测识别,提出了一个算法技术框架。用于检测对图像进行的添加、删除和翻拍等操作,以保护原创图像。在对原图上的篡改检测效果良好的基础上,对于翻拍、变形图像的检测问题,也取得了一定的效果
学位
股票是人们日常生活中一种重要的投资方式,合理分析股票价格的走势并作出准确的预测一直是投资者和金融学家们关心的问题。由于股票数据存在非线性、多特征等特点,传统的基于统计学构建的预测模型难以对股票价格作出准确的预测。近年来,人工神经网络依托硬件技术的进步取得了长足的发展,可以高效地处理大量、多维的数据,这为股票预测领域提供了新的研究方向。但股票价格的走势与多种因素有关,如板块效应、宏观经济政策、技术指
学位
近年来,随着加密数字货币的迅速发展,其种类愈加丰富。加密数字货币带来诸多方便和财富的同时也滋生了洗钱、敲诈勒索、黑市交易、赌博等违法犯罪行为。与传统的货币不同,加密数字货币为犯罪分子提供隐蔽交易形式的同时会暴露出他们独有的行为方式,研究人员通过加密数字货币的交易时间,交易地点,交易数目等一系列特征行为来分析当前这笔加密数字货币的交易是否合法。加密数字货币交易合法性的检测面临两方面问题:一方面,只有
学位