基于分数阶散射网络的图像特征提取与图像生成的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:qwe007wc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像生成模型是当前研究的一个热点,广泛应用于图像合成、图像复原、图像修补等任务。但是,当前基于深度卷积神经网络的生成模型结构比较复杂,不易训练,而基于散射网络的生成模型(Generative networks as inverse problem with Scattering transforms,GSNs)虽然简化了模型结构,但是生成图像的质量不高,且在实现时出现了过拟合问题。针对上述问题,本文围绕GSNs生成模型针对静态RGB彩色图像展开了一系列研究,主要研究成果如下:(1)本文提出了一种针对分数阶散射网络输出特征的数据降维方式,并在图像生成实验中对比了主成分分析(Principal Component Analysis,PCA)数据降维方式和多维线性主成分分析(Multilinear Principal Component Analysis,MPCA)数据降维方式。本文提出的数据降维方式将分数阶散射网络分层输出的特征进行融合以达到数据降维的目的,该数据降维方式在本文实验的测试集中得到了较好的结果。实验表明,对于CIFAR-10数据集、CelebA数据集和FFHQ数据集,本文提出的数据降维方式相比于PCA方式,虽然生成图像的Train PSNR、Train SSIM降低9%~17%,但是Test PSNR、Test SSIM却提高5%~17%。此外,训练集和测试集的PSNR得分差异从原来22%~27%缩小至3.5%~6.7%,SSIM得分差异从原来18%~32%缩小至1.9%~5.6%。(2)本文将分数阶散射网络(Fractional Scattering Network,FrScatNets)引入到GSNs生成模型中,利用FrScatNets可连续分析图像时频域特征的能力,为本文图像生成模型寻找出更合适的分数阶参数。实验表明,对于CIFAR-10数据集、CelebA数据集和 FFHQ 数据集,当分数阶(α1,α2)=(0.40,1)、(α1,α2)=(0.70,1)、(α1,α2)=(1.30,1)、(α1,α2)=(1.60,1)时,FrScatNets提取的特征生成的图像较好。相比于GSNs生成模型,生成图像的Train PSNR、Test PSNR、Train SSIM和Test SSIM分别提升了0.3%~2.5%、0.9%~2.1%、2.1%~5.4%、2.8%~4.7%。(3)本文从多个方面对GSNs生成模型的生成器进行改进,在模型中对比了亚像素卷积层和双线性插值上采样方式,引入了残差连接,并在模型训练中使用组合损失函数替代单一的L1损失函数以提高生成图像的质量。实验表明,对于CelebA数据集和FFHQ数据集,引入残差连接的图像生成模型相比于GSNs图像生成模型,生成图像的Train PSNR、Test PSNR、Train SSIM、Test SSIM 分别提升了 0.6%~2.8%、1.3%~3.7%、0.4%~1.7%、0.9%~4.8%;而对于包含较小图像的CIFAR-10数据集,引入残差连接的图像生成模型,相比于GSNs图像生成模型,虽然Train PSNR、Train SSIM、Test SSIM分别提升了 2.6%~4.2%、2.7%~12%、0.6%~6.6%,但 Test PSNR 却降低了 0.4%~1.2%。实验表明,使用组合损失函数的图像生成模型相比于单纯使用L1损失函数的GSNs图像生成模型,生成图像的Train PSNR、Test PSNR、Train SSIM和Test SSIM分别提升了0.2%~2%、1%~3.4%、6%~12%、4.5%~11.7%。(4)由于FrScatNet可连续分析图像时频域内的特征,本文将其提取的不同特征生成的图像进行融合以提高生成图像的质量。实验表明,融合两张生成图像,相比于GSNs生成的单张图像,训练集和测试集生成图像的质量都有提升。对于CIFAR10数据集、CelebA数据集和FFHQ数据集,融合图像相比于GSNs生成的单张图像,Train PSNR、Test PSNR、Train SSIM、Test SSIM 分别提升了 2.8%~3.8%,2.4%~4.6%,3.0%~5.4%,2.9%~6.0%。
其他文献
强子的电磁形状因子是强子物理中非常重要的非微扰物理量,它反映了强子的内部结构,所以精确测量强子电磁形状因子几十年来一直是非常热门的课题。实验上,可以通过测量ep散射,e+e→pp,eπ弹性散射和e+e→π+π-等过程的截面来抽取质子和π介子的电磁形状因子。2000年JLab的实验表明采用Rosenbluth方法和极化转移法给出的质子电磁形状因子比值有不可忽略的差异,2003年Blunden等人的研
目的综合评价合并角膜散光的长眼轴患者在白内障超声乳化联合Toric人工晶体(intraocular lens,IOL)植入术后中远期旋转稳定性和主客观视觉质量。为临床上长眼轴合并角膜散光的白内障患者IOL的选择提供理论依据。方法采用回顾性队列研究。选择2016年4月至2018年12月至东部战区总医院接受白内障超声乳化联合Toric IOL植入术的患者,术前规则角膜散光≥0.75D,共55例69眼,
随着移动通信产业的迅速发展和第五代移动通信系统(5G)的逐步应用,移动用户和移动设备的需求不断增长,大规模分布式移动网络作为5G中的关键网络架构,具有更高的宏分集增益和更小的传输距离。其中大规模分布式天线系统(DAS)通过部署更多的远端天线单元(RRU),增加系统容量和频谱效率(SE)。大规模分布式天线系统在带来系统性能提升的同时,还会产生很大的回程消耗和干扰管理问题。本文为了让系统性能便于分析,
图形用户界面随着计算机、通信等技术的发展在各个产业界以及人们的生活中已经被广泛应用,并且帮助人们提升工作效率和改善生活质量,图形用户界面的设计和评价也随之不断被重视。图形用户界面的设计评价要素包括颜色、内容、结构以及布局等,其中元素的布局在设计评价中作用尤为重要。同时,信息技术、人工智能技术的迅猛发展,对界面设计评价提出了更高的要求,也提供了更多潜在的应用方法。因此在本研究中,以界面布局评价为研究
儿童肾病综合征(Nephrotic syndrome,NS)是一种临床常见的儿童肾脏疾病,主要表现为以大量蛋白尿、低白蛋白血症、高脂血症和水肿为主的一组临床症候群,其年发病率为1.15~16.9/100,000,目前有关该病流行病学调查方面的资料国内报道十分有限。NS尚无特异血清学诊断标志物,组织活检是NS诊断和病理分型的“金标准”,但组织活检具有创伤性,且不适用于肾脏状况连续监测。微小核糖核酸(
对话行为是一种浅层范畴的用户意图,表达出的是用户最直接的行为。对话行为分类作为自然语言理解的基本任务,在对话系统中发挥着重要的作用,其目的是识别出对话内容的对话行为,并辅助做出对话决策。随着人工智能的发展,对话系统慢慢地融入人们的生活,提供智能、便捷的服务。为了改善用户的体验感受、贴合用户的意愿,系统需要提供更加精准的语义理解,因此对话行为分类的研究具有重要的意义和实用价值。据调研发现,基于规则的
色彩是界面应用中最有效的信息编码方式,通过色彩层级映射信息层级的方式能够帮助用户快速识别信息,提高认知效率。本文重点研究色彩应用过程中色彩-面积特征整合对视觉感知的影响,探究面积改变视觉显著性的界限,目的在于克服认知容量7±2的限制,保障用户高效识别目标信息,为扩大色彩编码范围和发挥色彩的引导性作用提供支持。本文以色彩显著性层级理论为基础,对色彩的功能应用进行研究,并从三个方面展开:第一、采用调整
目前CMF的设计主要是依靠设计师的经验,所以设计师的认知偏差造成的决策失误是产品失败的重要原因。在商业社会中对于材料的研究应该着重于对作为消费者的“人”的研究,而这部分的研究相较材料物理化学性能的研究则少之又少,且缺乏系统性的探索。本文将以这个为切入点,基于材料的CMF感知评价数据,找到材料CMF物理属性与人的心理属性之间的映射关系,为设计师提供CMF设计辅助。本课题首先通过M-F-C的顺序对金属
学位
知识图谱是一种描述物理世界中的实体概念及其相互关系的图结构知识库。知识图谱实体嵌入方法则旨在表征实体特征,得到实体低维稠密的向量表示,使得对知识图谱的分析推至数值计算层面,生成的实体嵌入可广泛应用于机器学习相关的下游任务中。现有知识表示学习方法多是针对知识图谱的三元组结构进行实体和关系建模,忽略了实体之间的复杂关系,如实体的多步路径和多阶邻域信息等。此外,基于图结构的表示学习方法认为图中相近的实体