基于深度学习的视频编码技术研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:xkfywwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自20世纪八十年代以来,视频编码(Video coding)技术蓬勃发展,广泛应用于远程教育、远程医疗、可视电话、视频会议、视频点播、交互式视频游戏、安全监控、虚拟实现等领域,对整个信息产业的发展起到了巨大的推动作用。现实生活中,无处不在的视频应用更是催生出海量的视频数据;特别是近年来人们强烈追求更清晰、更流畅、更逼真的视觉体验,使得视频数据呈现爆发式增长,对视频压缩效率提出了更高的要求。高效视频编码标准HEVC(High Efficiency Video Coding)相比上一代国际视频编码标准H.264/AVC,可以使1080P视频内容的压缩效率提高50%左右。在HEVC框架中,帧内帧间预测技术、环路滤波技术、快速编码技术是保障其压缩率、感知质量以及编码速度的三大重要技术领域。尽管针对帧内帧间预测、环路滤波和快速编码算法的改进工作已经有很多,但是HEVC编码性能仍不能达到最优,很大一部分原因是受到手工设计的特征提取和特征建模的性能限制。近年来,随着深度学习(Deep learning)技术的再次兴起及其在计算机视觉领域的广泛成功,视频编码技术开启了端到端自动建模的研究新领域。基于深度学习的预测编码技术可以有效提高视频压缩率,基于深度学习的环路滤波技术可以有效提高解码图的视觉舒适度,它们在直播推流、视频传输等领域具有广泛的应用价值和商业价值。尽管应用前景广阔,但是基于深度学习的视频编码技术还处于研究初期,相关研究成果还没有形成完整的体系,在深度神经网络结构、网络可解释性、训练数据集的构建、网络训练方法、网络计算效率、跨平台的代码兼容性等方面还需开展细致的研究。因此,开展基于深度学习的视频高效编码算法研究,完善基于深度学习的视频编码理论,具有重要的理论与现实意义。本文对基于深度学习的视频编码关键技术进行了深入研究,主要的学术贡献及创新点包括以下几个方面:1.提出基于感知对抗和渐进式网络的环路滤波算法框架(MPRNet),性能超越了去块滤波、样本自适应偏移、自适应环路滤波等传统的环路滤波方法。本方法主要从三个层面上提高算法性能:将解码图像(未经环路滤波的图像)送入深度学习网络进行逐级渐进式的增强处理,有效解决了块效应、振铃效应、模糊等由编码导致的图像失真问题,提高了编码效率和主观视觉质量;采用对抗训练方式,结合均方误差损失、感知损失和对抗损失,能有效提高图像的视觉质量;采用可伸缩的多级渐进式的CNN网络,用多级均方误差损失来控制各级网络的拟合功能,实现由粗到细渐进式的增强处理效果,能在计算量和增强效果之间进行平衡。2.提出基于卷积自编码机的帧内预测算法框架(IPCED),采用端到端数据驱动的方式进行帧内预测,可有效降低预测残差,提高编码率失真性能。本方法从以下三方面提高帧内预测性能:借鉴图像修复技术,用3个参考块进行第四象限的帧内预测,并引入GAN对抗损失和联合优化方式,提高预测准确率;提出多级直连的卷积编码器网络,把深层全局信息和浅层局部信息融合到一起,增强对参考块纹理特征的学习和表征能力;提出多级反卷积的解码器网络,逐级进行纹理重建(即帧内预测),增强预测结果的纹理丰富程度,提高预测准确率。3.提出基于CNN的编码单元结构快速决策算法框架,将QTBT编码单元划分结构优化问题转化为多分类问题,从整体上判断32×32编码块的纹理复杂度(即划分深度范围),而不是逐级判断是否需要划分为子块,从而显著提高了决策速度。本方法的创新特色有以下三点:直接预测32×32编码块的最浅和最深划分深度,有效解决了JVET中QTBT编码单元种类繁多的问题,并保持了良好的分类准确性;针对任务特点,设计了新型目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确;本方法是一种端到端的学习系统,将直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征,也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。综上,本文以基于深度学习的视频编码技术为研究对象,对基于深度学习的环路滤波、帧内预测、和快速编码等关键技术进行了深入研究。实验结果表明,本文提出的多种算法均有效提高了视频编码效率。
其他文献
目的:探索参与志愿服务对失独者自我理解的干预效果及其发生机制。方法:在南京市某街道招募失独父母15人,邀请他们参与社区志愿服务,在参与志愿服务前后,对失独父母进行一对一的半结构式访谈,并对访谈内容进行质性分析。结果:研究发现,参与志愿服务可以帮助失独者发展肯定的自我理解,生成积极的自我意义,具体表现在参与者自我的三个向度:自信、尊严和自尊的改变。而参与志愿服务所带来的直接心理经验和与他人互动的社会
目的:编制团体辅导凝聚力问卷,并检验其信效度。方法:通过文献检索与小组访谈形成问卷的初始题项,选择11个团体共收集203份有效数据,对问卷题项质量及结构进行初探,另外选择18个团体共收集411份有效数据,用于检验问卷的信度、结构效度及效标效度。结果:最终形成的凝聚力问卷包含十五个题项,分为团体投入、团体意识、团体疏离三个维度。内部一致性信度分别为0.904、0.854、0.824,问卷总的内部一致
目的:探讨父母温暖、拒绝与学龄儿童违纪行为间的关系是否会受到儿童冷漠无情特质的调节。方法:采用儿童教养行为问卷、儿童行为核查表以及冷漠无情特质问卷对284名学龄儿童及其父母进行测查。结果:(1)父亲和母亲温暖均与儿童违纪行为显著负相关,父亲和母亲拒绝均与儿童违纪行为显著正相关。(2)父亲和母亲温暖均能够显著负向预测高冷漠无情特质儿童的违纪行为,但是不能预测低冷漠无情特质儿童的违纪行为。(3)父亲和
在人工智能时代,算法的设计及应用对市场竞争产生了明显的影响。按照算法合谋中价格协议的功能不同,可将算法分为辅助型算法和决策型算法。而这两类不同的算法在价格合谋的不同阶段及环节发挥不同的作用。辅助型算法加大了垄断协议的证明难度,决策型算法对先行的默示合谋合法性认定标准带来挑战,且对反垄断规制的归责原则带来了冲击。面对不同算法合谋的反垄断规制困境,在算法产业特性与反垄断规则的规范共性平衡基础上,既要关
目的:探究平衡时间洞察力在主观社会地位与幸福感之间的中介作用。方法:采用中文版时间洞察力量表、主观社会地位和幸福感指数量表对3787名成年人进行调查,并使用Deviation from the Balanced Time Perspective(DBTP)法计算平衡时间洞察力。结果:(1)相关分析表明,主观社会地位与幸福感正相关,DBTP与主观社会地位、幸福感负相关。(2)中介分析表明,在控制了性
目的:探讨青少年情绪共情与抑郁之间的关系,以及羞耻倾向和心理弹性在其中的中介作用。方法:采用人际反应指针、内疚和羞耻倾向量表、心理弹性量表、流调中心抑郁量表对640名青少年进行测量。结果:相关分析结果显示,情绪共情、羞耻倾向、抑郁两两之间均存在显著正相关,心理弹性与情绪共情、羞耻倾向、抑郁均显著负相关;链式中介作用分析表明,情绪共情对抑郁的直接效应显著,羞耻倾向、心理弹性以及羞耻倾向—心理弹性在情
课堂学习结果,是指在课堂的人数、时间、科目等规定性之下,学习者在完成一定的学科学习任务中获得的学习成果。基于安德森、布卢姆、加涅的个体学习结果分类理论,基于群体动力、理解学习、学会学习的视角,构建由知识、策略、态度构成的课堂学习结果分类框架,并阐述了各类别课堂学习结果的内外表现及教学要求。
在警用犬的管理、训练和使用过程中,不论是服从性科目的训练,还是使用科目的训练,都具有阶段性的特点。主要体现在训练方法、训练内容、训练重点上的区别和整合进度上的不同。在实践中,就如何把握好警用犬训练和使用的不同阶段,经过多年的总结、研判和实践检验,笔者认为要全面提高训练质效,就要把握好以下"四个阶段"。一、巩固、提高训练能力阶段训导员同警用犬确定了训练关系后,就开启了训练进程。
期刊
一、问题的提出教学目标是课程目标在教学中的具体体现,是教学的出发点和归宿,也是教学设计中一项十分重要的任务。教学有效性的一个核心指标是目标达成度。教师的教学目标达成了,就是高效的教学吗?笔者认为还得看教学目标是否最大限度地契合课程标准、学科核心素养和学情。如果教学目标单一、模糊,或用知识取代能力和素养,导致教学活动随意,那么,即使"教学目标"已达成,仍不是高效教学。化学是以实验为基础的科学,
期刊
目的:探讨基于量化评估策略下的身体约束干预在重症监护病房(ICU)意识障碍病人中的应用效果。方法:选择2019年3月—2020年7月收治的ICU意识障碍病人193例,采用分层随机法分为干预组97例和对照组96例。对照组给予基于经验式评估的身体约束干预,干预组给予基于量化评估策略下的身体约束干预,比较两组病人约束情况、病人家属满意度。同期选择给予干预组、对照组病人护理的ICU护士各63人为调查对象,