基于神经网络的HEVC帧间预测算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kirk318
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频作为人们获取信息最快捷、高效的数据形式,已经成为了人们日常生活以及互联网数据中最重要的组成部分。随着互联网和自媒体的蓬勃发展,每天都会有海量的视频数据涌入互联网,这对网络带宽、终端设备的存储能力等都带来了挑战。因此,视频编码,旨在减少视频数据量的同时不引入过多的失真,就成为了诸多以视频为主要媒介的应用场景的核心技术之一。高效视频编码标准(High Efficiency Video Coding,HEVC)主要通过帧内预测、帧间预测、变换量化等模块去除视频图像中存在的空域、时域、频域等冗余信息。其中,帧间预测用于去除视频帧之间大量存在的时域冗余,其效率在很大程度上影响了整体编码效率。在帧间预测过程中,参考帧作为运动估计和运动补偿的基础,其质量的高低将很大程度上影响帧间编码的效率。为了提高参考帧的质量,很多研究通过利用视频插帧算法生成与编码帧相关性更强的全新参考帧,很好地提升了帧间预测的效率。然而,这些算法在运动模糊场景下难以保持较好的鲁棒性。运动模糊是普遍存在于日常拍摄视频中的一种现象,不规则的运动模糊会使得相邻帧之间的相关性大大降低。目前也有一些针对运动模糊场景的研究尝试通过基于运动方向的滤波器来提升参考帧质量,然而这些方法都存在着需要运动向量先验信息、滤波系数泛化性差等问题,并没有很好地解决运动模糊场景下帧间预测效率低的问题。为了提升运动模糊视频帧间预测过程中参考帧的质量,并克服以上研究的局限性,本文提出了基于参考帧预测网络的运动模糊视频帧间编码算法。具体地,本文的主要工作由以下三个部分构成:(1)建立了面向编码任务的运动模糊视频数据集;(2)设计了面向运动模糊场景的参考帧预测网络;(3)将参考帧预测网络集成到HEVC。经实验,本文提出的算法在随机接入模式下与HEVC标准参考软件HM16.9相比可以平均节省1.21%的BD-rate。其中,在运动模糊视频数据集中,本算法可以平均取得1.55%的增益;而在HEVC通用测试序列中,也仍然可以取得平均0.65%的增益。这一结果表明,本文提出的算法可以很好地提升运动模糊视频序列的帧间编码效率,并且同时还能在普通视频序列中保持较好的鲁棒性。
其他文献
随着信息时代的发展,大规模的数据与复杂数据分析方法对查询引擎的性能提出了更高的需求。连接查询能够从多个关联的数据表中抽取出有价值的信息,是当前主要的查询方式。Spark并行计算引擎作为流行的大数据处理框架,使用Spark SQL组件处理结构化数据查询,能够将输入的SQL查询语句经过优化后转换为Spark程序执行,有效地利用了Spark处理大数据任务的优势。然而Spark SQL在优化连接查询时仍然
学位
深度伪造专指基于人工智能的人体图像合成技术,此技术可将已有的图像或视频叠加至目标图像或视频上,用以制造虚假的多媒体信息。人脸替换是深度伪造的一个重要领域,它的基本任务是将目标人物图像的身份特征替换为源人物,同时保留目标人物面部表情、头部动作、纹理细节、背景光照等属性特征。人脸替换可以广泛地应用到影视制作、人脸匿名、在线会议等领域。传统的人脸替换方法依赖于大量的人工操作,耗时长、效率低,而且替换的结
学位
随着大数据时代的到来和人工智能应用需求的不断增长,机器学习展现出来的优势使它成为不同领域智能发展的重要工具。然而,由于其集中式的训练模式,“数据孤岛”和数据隐私问题成为机器学习重大挑战。联邦学习(Federated Learning,FL)作为一种新兴的人工智能技术,通过终端分布式地在本地进行训练,避免了隐私数据直接上传,保障了大数据交换时的信息安全和隐私。尽管如此,传统的FL还面临着长通信距离带
学位
随着物联网的不断部署和应用,大量智能设备接入网络中,对网络的通信和计算资源产生了巨大需求,而边缘计算能为运行在这些设备上的不同应用就近提供丰富的资源以满足这些需求。通过将边缘计算服务器(Edge Computing Server,ECS)部署在网络边缘,这些设备可以将计算任务卸载到ECS上处理,从而降低处理时延与能耗。在边缘计算的任务卸载中,物联网设备需要通过无线信道将任务卸载到ECS,传统的正交
学位
<正>前苏联Ilizarov教授发明的以张力-应力法则为理论基础的Ilizarov骨外固定技术体系,是20世纪骨科发展的里程碑之一[1]。骨搬移(bone transport)技术则是Ilizarov外固定技术体系的重要组成部分[1]。在Ilizarov技术面世之前,临床大量无菌性或感染性骨不连、骨缺损患者的治疗一直是一个
期刊
在计算机视觉中的识别和分类任务中,神经网络模型展现出优秀性能,能够取得极高的识别或分类准确率,但当在输入图像中添加人眼难以辨别的微小扰动时,神经网络模型识别或分类准确率大幅下降,这一过程被称为对抗攻击,被添加微小扰动的输入图像被称为对抗样本。在生成对抗样本的工作中,如何提升对抗样本迁移性是对抗攻击研究中的主流工作。对于已知模型结构的白盒攻击方法,生成的对抗样本迁移攻击其它未知神经网络模型,其对抗样
学位
认知雷达将感知到的环境信息反馈给发射端,使其能够及时调整发射策略提升目标检测、抗干扰等性能,成为目前机载雷达领域的研究热点。射频(Radio Frequency,RF)隐身波形设计技术是提升机载雷达发射性能的有效途径。该技术主要通过优化模型建立和算法求解得到RF隐身波形,并结合先进的信号处理方法,提高机载雷达的低截获(Low Probability of Interception,LPI)、低识别
学位
双相情感障碍(Bipolar disorder,BD)是一种严重的情绪障碍类疾病,找到对其有效鉴别的生物学指标是一项有意义的工作。本文采用静息态脑磁图(Magnetoencephalography,MEG)数据,采用了以振幅包络相关代表的传统功能连接指标和来源于静息态功能核磁共振(functional Magnetic Resonance Imaging,f MRI)的动态功能连接新方法——共激活
学位
毫米波无线通信因其极宽带宽、干净的频谱资源、极高的传输效率、较好的物理保密性、器件易小型化、组网相对灵活的特点,得到了广泛关注,成为第五代移动通信系统(5th Generation Mobile Communication Technology,5G)的关键技术,并在一些特殊领域有逐渐替代传统有线通信的势头。由于毫米波频率较高,其传播特性与低频微波通信系统相比有明显不同,研究毫米波无线信道特性是研
学位
多基线干涉合成孔径雷达(Synthetic Aperture Radar,SAR)是传统SAR成像技术的扩展,主要利用不同高度航过形成高度维虚拟大孔径,从而获取高度维分辨,再结合传统SAR二维成像能力实现观测场景的三维成像,在陡峭起伏地形、城市环境测绘具有重要研究和应用价值。但是,传统匹配滤波成像算法在多基线干涉SAR高度维成像时面临低分辨、高旁瓣、强栅瓣等问题,亟需开展高精度的成像新方法研究。面
学位