【摘 要】
:
深度学习在目标检测、语音识别等众多领域中扮演着重要角色。然而,现存的深层神经网络虽然在图像生成和分类的任务中表现出良好的性能,但在视频流的预测方面却难以满足现代工业上应用的需求。基于二维卷积的神经网络模型无法在时间域对光流进行建模,而结合二维卷积和长短时记忆网络而来的卷积长短时记忆网络(Convolutional Long Short Term Memory,Conv LSTM)对算力要求极高,本
论文部分内容阅读
深度学习在目标检测、语音识别等众多领域中扮演着重要角色。然而,现存的深层神经网络虽然在图像生成和分类的任务中表现出良好的性能,但在视频流的预测方面却难以满足现代工业上应用的需求。基于二维卷积的神经网络模型无法在时间域对光流进行建模,而结合二维卷积和长短时记忆网络而来的卷积长短时记忆网络(Convolutional Long Short Term Memory,Conv LSTM)对算力要求极高,本文提出了二维和三维卷积相结合的方式搭建生成对抗网络(Generative Adversarial Network,GAN)对视频未来帧进行逐级合成,实现了32帧的视频未来帧的逐级合成。本文内容如下:(1)提出了新的神经网络模型——伴随卷积网络,用于提升视频未来帧预测模型的收敛速度。伴随卷积神经网络是由多层多尺度浅层神经网络组成的深层模型、选择性传输和选择性多尺度优化三部分组成。首先训练预训练模型,其次,将数据集送入同样的两个模型当中,统计每个模型各个阶段的输出结果,然后通过与预训练模型对比PSNR(Peak Signal to Noise Ratio)值进行选择性传输。实验结果表明,在以PSNR为评估指标下,伴随卷积神经网络能够有效加速模型的收敛,在与pix2pix HD的实验结果对比中能够恢复出更多的图像细节。(2)针对深层神经网络训练需要较高算力的问题,分别使用基于三维卷积和二维卷积的神经网络对视频帧的光流进行提取和对预测的视频帧进行图像翻译,提出了结合三维卷积和二维卷积的生成对抗网络对未来视频帧进行预测。该模型需要将边缘检测图和语义分割图进行融合,将融合图片送入以三维卷积搭建的融合图片预测生成器,然后进行图像翻译得到真实的视频帧。(3)为进一步提高生成视频帧的质量和对生成的视频流质量进行准确评估,本文提出了新的损失函数和评估指标。该损失函数由交叉熵损失、L1正则损失和结构相似度(Structural Similarity Index,SSIM)损失构成。评估指标则是在弗雷歇初始距离(Frechet Inception Distance,FID)基础上进行改进。在不同场景的测试中,本文所提模型能够准确且清晰的预测出视频未来帧的趋势,所提损失函数和模型结构能够有效约束生成视频帧的质量。
其他文献
针对现有深度网络修复大面积随机缺失区域时存在修复结构不合理、生成细节模糊等缺陷,本文提出两种改进的修复模型:基于并行卷积的双阶段对抗网络图像修复与基于多尺度信息融合的单阶段对抗网络图像修复。论文主要贡献如下:针对现有算法在修复大面积规则掩码时出现的结构信息不连续和语义信息缺失的问题,提出一种基于并行卷积的两阶段修复模型,该模型由并行卷积组成的粗修复网络和融合残差连接与注意机制的细修复网络组成。首先
下肢静脉曲张产生的主要因素是由于静脉壁薄弱、瓣膜功能障碍和静脉内气压的不断增加,进而影响血液回流,从而导致静脉延长、产生迂曲、扩张等的临床症状。静脉曲张的最主要治疗方法是外科手术,由于通过外科手术可以根治静脉曲张,因而术前检查和个性化治疗方案的制定在静脉曲张的诊治过程中显得尤为重要。目前在临床上主要采用彩色多普勒超声、下肢数字减影血管造影(Digital Subtraction Angiograp
上世纪70年代后期,英国生物化学家Frederick Sanger研发了第一代基因组测序技术,开启了基因组学新纪元,为探索生命的本质奠定了基础。经过科研人员的不断完善,测序技术历经三次迭代,至今仍然不能直接测得完整的基因图谱,只能先将完整的基因截取为不同长度的read(碎片),随后测得read序列,通过拼接技术将这些read拼接为完整的基因组图谱。完整的基因组图谱在分析遗传变异中发挥着重要的作用,
图像分类技术是深度学习领域的一项重点研究方向。本文将深度神经网络应用于对医学图像的鉴别与诊断,研究内容主要是在传统卷积神经网络(Convolutional NeuralNetwork,CNN)的基础上做出改进,提高网络的效果。本文在重楼显微数据集和溃疡性结肠炎数据集上进行了具体研究。在对重楼显微图像的鉴别中,本文在基于传统CNN模型上加上了不同的注意力模块,其原理是可以模仿人眼观察物体一样在扫描整
说唱音乐充分表达了作者对生活、对社会的态度,说唱音乐的传播可以帮助人们提高自我意识,弘扬中华民族的传统文化。然而中文文法和句式结构的复杂性使得中文说唱歌词领域的研究进展十分困难。说唱歌词生成是文本自动生成任务的特例,基于主题的说唱歌词生成技术不仅要求生成的说唱歌词满足文本的流畅性、可读性和内容性,更限制文本内容必须是主题相关性的。这对文本生成模型提出了巨大的挑战。本文首先明确了当今说唱歌词生成算法
知识图谱(Knowledge Graph,KG)以强大的语义处理能力与开放互联能力成为人工智能领域研究的热点。然而,KG中的知识并不完善,部分实体之间缺少链接,导致KG的使用受到极大的限制。KG的链接预测任务旨在为实体间缺失的链接进行预测,其中,根据KG中的知识计算实体间存在链接的可能性,预测缺失的实体链接,是KG链接预测的核心任务之一,也是本文研究的链接预测问题。KG中的实体之间存在着相互依赖关
航班延误是困扰世界各国的民航业难题。中国民航业在经过了一段时间的跨越式发展后,现如今仍存在民航管理体系不够健全、空管体制有待优化、市场体制不够完善等制约民航业整体运行效率的问题。另一方面,航空公司时刻安排不甚合理、延误信息发布不够及时,加之公民素质良莠不齐、航空知识宣传普及仍有待加强等因素,决定航班延误问题不仅很难在短期内有效解决,而且还需防范进一步恶化的可能。本文以航空公司航班延误问题作为研究案
图像描述是使计算机自动输出关于图像内容的自然语言,即将自然图像转换为文字形式。基于编码器-解码器的网络结构是目前最常见的图像描述方法,自然图像作为编码器的输入,提取图像特征向量,将其与标注的序列编码共同输入解码器,建立图像与序列之间的联系,但是当前的研究仍然存在不足。比如在图像特征提取过程中,由于输入编码器的向量被展平,从而丢失了对象之间的位置关系。除此以外,在视觉特征和序列特征对应方面也存在不足
社会经济的快速发展,使人们的生活水平及生活质量有大幅度提升,人们的消费意识和消费习惯有很大改变,这时候就出现了一种新兴的消费模式,即预付式消费,受到消费者的喜爱和偏好,现在非常多的商家也追捧这种消费模式。在近些年,预付式消费发展的非常快,但是实际监管中出现监管不力的问题导致消费者权益受到损害,就导致预付式消费的发展受到限制,造成一些不利的影响,影响预付式消费模式的推行,影响市场经济的发展。基于此,
在信息网络中,确定任意节点之间是否存在链接,基本的方法是使用邻接矩阵进行表示。但这样的方法会出现以下问题:如果节点仅有较少的邻居,即随机两个节点间可能不存在相连接的边,那么基于这些节点所构建的邻接矩阵就变得稀疏,并导致耗费很多不必要的空间来进行存储。因此,需要引入网络表征学习来应对以上问题。网络表征学习旨在将节点和向量之间找到一种映射函数并建立关系,同时保留网络拓扑性质,通过该函数将网络中的每一个