基于深度学习的视频帧内编码块划分方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chting0910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来多媒体技术的发展,高清、超高清视频的数据量呈指数级增长,数据的传输和存储都面临巨大的压力,视频编码技术面临更大的挑战。作为最新的两代国际编码标准,高效视频编码标准(High Efficiency Video Coding,HEVC/H.265)和多功能视频编码标准(Versatile Video Coding,VVC/H.266),分别于2013年1月和2020年7月发布。HEVC和VVC相比于各自的前一代标准,分别实现了约50%和30%的编码性能提升。编码性能的提升伴随着编码复杂度的急剧增长。其中,块划分技术是标准编码器编码过程中耗时占比最高的技术,其通过递归遍历搜索的方式确定图像帧各编码树单元的划分结构。HEVC标准采用自适应四叉树划分结构,取代了前一代标准AVC采用的均匀块划分。VVC标准采用四叉树加多类型树(Quadtree plus Multi-Type Tree,QTMTT)划分结构,在四叉树划分的基础上增加了水平、竖直两个方向的二叉树和三叉树划分。若要使得HEVC和VVC标准可以应用于实际编码场景,加速块划分的过程以降低编码复杂度是一条必经之路。针对低复杂度的划分方法设计,本文总结了两个关键问题:一是简洁和完备的表征划分的数据形式;二是高效的划分预测方法。针对这两个关键问题,本文提出使用二维矩阵和三维矩阵来分别表达四叉树划分结构和QTMTT划分结构,分别命名为深度图和划分图,并且使用基于深度学习的方法来预测划分结构,完全或部分地替换编码器的划分搜索过程,实现编码加速的目标。HEVC和VVC具备不同的划分结构和划分特点,本文的研究内容分为两部分,第一部分是针对HEVC的四叉树划分方法,第二部分是针对VVC的QTMTT划分方法。QTMTT划分结构包含了四叉树划分结构,因此第一部分的工作也是第二部分工作的基础,并且为第二部分工作验证了方法的可行性。本文的主要内容包括:1.提出了基于深度图预测的HEVC划分方法。本文提出使用深度图来表示HEVC标准采用的四叉树划分结构。深度图是一个二维矩阵,其中的每个元素表示了对应位置的划分深度。此外,本文设计了一个卷积神经网络,以图像块的原始像素值为输入,预测其对应的深度图。该卷积神经网络包含的多尺度池化层以及训练使用的多尺度池化损失函数适应了深度图的固有属性。深度图预测可以确定编码树单元的完整四叉树划分结构,跳过编码器决策划分的递归遍历搜索过程。深度图预测的方法将一系列划分决策的分类问题转化为了一个提取纹理特性的回归问题,在标准测试序列上以较小的性能损失代价取得了显著的编码加速。2.提出了基于划分图预测的VVC划分方法。VVC的划分结构远复杂于HEVC的划分结构,从形式上看,块划分结构变得更加不规则。从根本上看,从像素值到划分结构的映射变得更加复杂。针对形式上的问题,本文在深度图的基础上提出使用划分图来表示QTMTT结构,划分图是一个三维矩阵,通过不同类型的深度图和方向图构成了 QTMTT结构的一个完备并且规则的表示,物理意义上反映了图像在不同尺度下的纹理特性。针对根本上的问题,本文设计了一个模拟编码器划分搜索过程的卷积神经网络来预测划分图,并且设计了一个自顶向下的后处理算法用以进一步提升网络输出的准确率并提取划分决策。划分图预测和后处理可以确定编码树单元部分或完整的QTMTT划分结构,实现可调的“编码加速一编码性能损失”权衡。
其他文献
鞅和局部鞅是随机分析中的基本概念。鞅性和局部鞅性是通过条件期望来定义的,所以它们都与其所在的概率空间上的概率测度有关系。本文是读书报告性质的文章,主要关注如下问题,一个一般的局部鞅能否找到一个等价的概率测度,使得它在新的概率测度下成为鞅。这个问题在离散时间的答案是肯定的,在连续时间则需要局部鞅满足一些性质,才能变为鞅。并且这一问题与金融数学中的资产基本定理有关系,在本文中也会介绍这些关系。本文通过
学位
学位
近年来,随着现代无线通讯技术的快速发展,人们对大信道容量、大数据传输以及高数据速率的需求日益增加。目前,无线通信技术正在向着6G通信迈进,天线作为无线通信技术中不可或缺的一部分,势必要紧跟技术发展的步伐。在日益复杂的通信系统中,单一的天线已经无法满足实际应用的高要求,因此通过由多个天线组成的天线阵列实现的多输入多输出(Multiple-Input-Multiple-Output,MIMO)系统备受
学位
在这个高速发展的信息时代,各行各业越来越重视对数据和数据间关联性的研究。其中,高斯图模型是一种被广泛应用在在网络数据分析中的图模型方法。目前,已经有很多关于高斯图模型参数估计方法的研究,并且对于这些估计,基于图模型内单点的统计推断方法也逐渐建立起来。然而,关于高斯图模型中多个点的同时统计推断问题,目前的研究还涉及较少,但是这一课题同样具有很重要的意义,因为在实际应用中我们往往更加关心网络中多个点或
学位
由于自身强大的表征能力,深度残差网络在计算机视觉、生物、化学等学科领域都受到了越来越多的关注。本文主要讨论在有监督学习的框架下,深度残差网络的最优层数设计。一般来说,网络层数越大,其表征能力越强,但是随着层数的增加,网络会逐渐出现过拟合问题。找到最优的网络层数,使网络既能拥有较强的表征能力,又不会出现严重的过拟合问题,一直是深度残差网络研究中的一个热点问题。本文在前人研究的基础上,向连续化的神经网
学位
左对称代数,也被称为预李代数,最早由A.Cayley在19世纪末提出,也在李群的仿射流形和仿射结构等研究中有所涉及。20世纪以后,左对称代数在很多数学领域都发挥了重要的作用,比如李群与李代数的复结构,经典或量子Yang-Baxter 方程等。但是因为左对称代数是非结合代数,它不像有限维结合代数、复半单李代数一样有相对完整的结构理论或表示理论,我们一般通过研究它的邻接李代数来研究其结构。在本文中,我
学位
本文的主要内容是在已有的技术基础上,基于有理函数域Fp(x)上模为x2的分圆函数域性质构造一族长度为奇素数p的二元序列,并讨论所得到的序列族的自相关性以及互相关性。文章的具体结构如下:第一章为简介,主要是介绍关于低相关性序列族已有的一些工作,并简单说明了本文的主要成果。第二章为预备知识,我们简单介绍了关于函数域的基本定义以及相关理论。并且介绍了二元序列及其相关性的定义。第三章利用有理函数域Fp(x
学位
得益于个人设备的发展,在过去的几十年里,大量的个性化应用程序得到了普及。与此同时,个人设备生成并储存了海量的个人数据。这种海量的个人数据中蕴含了诸如用户的兴趣偏好、知识能力等有价值的用户特征。因此,基于用户显式的行为数据,旨在建模用户潜在特征的用户建模任务逐渐成为了各种智能技术与应用的基础任务。通常,服务提供方或数据中心使用中心化的用户建模方法,这种中心化的用户建模方法不可避免地引入了数据滥用和隐
学位
对于非奇异矩阵的最小奇异值的下界的研究已经有很长的历史了。本文主要利用Frobenius范数和行列式给出了最小奇异值的新的下界,通过具体的例子的计算,这些新的下界比最新的结果要好。我们引入参数λ,建立了一个最小奇异值的含有参数λ的下界,并且最终获得递增收敛到最小奇异值的迭代公式。类似的,我们建立了一个最大奇异值的含有参数λ的上界,并且最终获得了递减收敛到最大奇异值的迭代公式。
学位
音乐艺术已然成为人类日常生活不可成缺的一部分。在当代形形色色的音乐作品中,绝大多数乐曲均为多轨音乐,即含有多个独立进行的音轨。多轨的特征能使音乐富含和声背景,提升乐曲的立体感,是现代音乐作曲中的关键要素。随着深度学习技术的流行,有越来越多的工作开始尝试使用神经网络生成多轨音乐,并取得了显著成果。对于多轨音乐的生成,目前的工作仍存在明显的不足:第一,多轨之间的和谐性与单条轨道的连贯性难以兼得。大多数
学位