基于学习的图像编码与视频软播技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xinyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的飞速发展,以互联网和移动终端为支撑的网络视频、社交网络、视频监控等新型应用不断涌现,象征着人类已经进入了大数据时代。各类媒体数据急剧增长,而图像视频数据异军突起,以更高的数量级增长。研究高效的图像视频存储与传输的方法成为大数据处理的核心问题。因此,图像编码和无线视频软播作为图像存储和视频传输领域的典型应用,具有重要的研究意义。变换是传统图像编码与视频软播框架中的核心技术,然而,固定线性变换不能自适应图像视频特性,因此无法实现图像视频紧致表达;同时,基于反变换的解码结构限制了先验知识的利用,导致图像的重建质量和编码效率较低。稀疏表示和卷积神经网络分别采用冗余基和非线性模型来自适应图像视频特性,能够实现信号的高效紧致表示;同时,灵活的表达结构可以高效地整合先验知识,进一步提升图像视频信号的重建质量。为此,针对无线视频广播问题和图像压缩问题,本文将稀疏表示理论和卷积神经网络引入传统的图像编码和视频软播框架中,从利用基于学习的方法提高图像编码和视频软播性能的角度开展研究,具体研究内容包括如下四方面:
  第一,提出了一种基于字典学习的无线视频软播方案。在传统的无线视频软播框架中,固定变换不能自适应图像视频特性,无法高效表示视频信号,在低带宽条件下性能受限明显;同时,基于反变换的解码结构无法利用先验知识进一步提升解码质量。压缩感知方法可利用信号稀疏特性,基于少量观测数据,采用优化方法几乎精确地重构信号。为此,本文利用稀疏编码和重建代替无线视频软播方案中传统的变换和反变换过程,提出了一种基于压缩感知和层次帧结构的无线视频软播方案。在编码端,在有限带宽条件下,建立层次帧结构,合理分配观测率,最大限度获取视频信号的有效信息。特别是,利用同等重要的观测数据具有天然的抗丢包能力,降低了信道保护代价。在解码端,利用视频信号的局部稀疏性和非局部自相似性以及时域相关性等先验信息,提出了基于组的稀疏表示优化重建模型及高效的模型求解算法,实现了视频软播的高精度和鲁棒解码。实验结果表明,本文提出的方案具有良好视频广播可伸缩性的同时显著提高了编码压缩效率。
  第二,提出了一种基于低秩逼近的行扫描视频软播方案。在传统无线视频软播方案中,预测环节缺失导致编码效率低下,若加入闭环预测则会引发误差漂移问题;同时,以块或帧为编码单元导致其必须获得足够规模的行数据才可进行编码和传输,从而造成行扫描视频传输高延迟问题。分布式编码理论指出,当解码端具有边信息时信源可以被高效压缩,并且对误差传递具有鲁棒性。低秩表示本质上结构化的稀疏表示,在图像视频的低秩表示框架下,图像视频中相关性隐含在一个低秩矩阵形式中,低秩表示为图像视频的高精度逼近提供了途径。为此,本文利用分布式编码的典型技术陪集编码代替无线视频软播中的变换编码,提出了一种基于低秩矩阵填充的行扫描视频软播方法。在编码端,无须等待若干行数据采集,实时对采集的视频行进行陪集编码压缩,降低了编码端计算代价。在解码端,在分析视频时空域相关性基础上,利用模板匹配技术,提出了基于低秩逼近的边信息生成算法。通过高精度的边信息,提高了陪集解码准确性和重建视频质量。实验结果表明,本文提出的方案在多种信道条件下均取得优于传统视频软播方案的性能。
  第三,提出了一种基于卷积神经网络的视频软播后处理方案。传统视频软播方案采用了基于块的离散余弦变换压缩图像中的冗余信息。当带宽受限时,需要丢弃一定数目的变换系数,同时信号在传输中不可避免地受到噪声干扰,解码端接收到的数据中包含了编码和传输环节的噪声。然而,在解码端,在经过反变换的解码图像中,编码与传输噪声依然存在。事实上,稀疏表示和卷积神经网络网络可以自适应图像特性,实现降质图像的高精度重建。为此,本文基于稀疏表示和卷积神经网络,提出了一种基于卷积神经网络的鲁棒的视频广播方案。该方案将编码视为图像降质过程,编码端根据带宽条件控制降质程度。在解码端,将图像解码转化为降质图像的复原问题,利用视频帧的局部稀疏性和非局部自相似性,建立组稀疏表示模型,针对降质过程,提出了基于组稀疏表示模型的视频帧复原方法。在此基础上,利用卷积神经网络的强大的非线性特性,进一步减轻编码和传输噪声所产生的影响。实验结果表明,本文提出的方案不仅具有良好的视频广播可伸缩性,而且可以减轻编码和传输中的噪声,与传统视频软播相比,提供了视觉友好的主客观质量。
  第四,提出了一种基于深度神经网络的端到端相关图像压缩方法。传统图像编码方法采用固定的线性变换,固定变换基无法自适应于图像特性,线性的表达方式难以刻画图像复杂纹理与结构;同时,独立优化设计的编解码端,限制了压缩性能的提升。自编码器利用多层网络将高维数据表示为低维的特征,并由低维特征最大限度地恢复原始数据;其利用非线性模型获得优于线性变换的紧致特征表示。同时,灵活的编解码结构和编解码的协同优化为图像高效压缩提供了可能。为此,本文在多路自编码器基础上,对各个层次特征施加互参考约束,建立了基于互参考结构的关联图像编解码方案。采用二值化器量化图像特征,利用图像内容特征生成重要性图,以指导量化特征的码率分配。将编码的率失真优化代价作为网络的优化目标,通过可微的二值化器保证了网络训练的可行性。本文提出的方法通过端到端的自编码器结构实现了图像编解码的联合优化,通过多路的互参考的结构实现了相关图像的高效编码。实验结果表明,对于相关图像压缩问题,本文提出的方法能够获得优于传统图像编码方法的主客观质量。
其他文献
温室气体过度排放引起的全球气候变化已成为当今国际社会普遍关注的问题,在保持经济社会持续发展的同时应对气候变化的挑战,需要各国共同转向低碳发展路径,因此,碳排放空间将成为越来越稀缺的自然资源和生产要素。碳排放权交易机制把碳排放空间作为一种稀缺环境资源来进行量化管理,是碳排放约束的重要手段。电力行业是碳排放量最大的行业,也是国内外碳市场最重要的参与主体,关于碳排放约束对电力行业竞争力的影响机理及其低碳
学位
永磁直驱风力发电系统是一个强耦合非线性的复杂系统,同时由于风能具有随机性和突发性,机组的数学模型会随着静态工作点的变化而变化,表现出严重的时变和非线性特性,所以常规的PI控制器难以获得较好的控制效果。滑模变结构控制是一种特殊的非线性控制,不需要建立精确的数学模型,滑动模态的设计与对象参数和扰动无关,使得滑模变结构控制具有动态响应速度快、对系统参数变化以及扰动不灵敏、物理实现简单的优点。所以滑模变结
隔离型变换器具有电气隔离的优点,已得到广泛应用。由于开关管工作在开关模式,隔离变换器中存在电位高频跳变的节点,由此引起共模传导干扰。抑制隔离型变换器的原始共模传导干扰,可以减小共模EMI滤波器的体积和重量,从而提高其功率密度。本文研究抑制隔离型变换器原始共模传导干扰的屏蔽-无源对消复合技术。在隔离型变换器中,共模传导干扰的主要路径有两条,一条是变压器原副边绕组之间的分布电容,另一条是原边电路中电位
并网逆变器高性能并联运行对提高分布式发电系统的容量具有重要意义。并联系统中各逆变器输出电压中的载波边带谐波相位会受到各逆变器控制载波相位的影响,在闭环控制的作用下,并联系统内部易于激起循环流通的高频谐振环流,不利于并联系统的稳定运行。针对并联逆变器间谐振环流受控制载波相位异步影响的问题,本文研究基于虚拟振荡器的无互联线载波同步控制策略,以提高并联系统的冗余性与灵活性。首先,针对基于有源阻尼控制的L
电动汽车车载锂电池的能量均衡是电池能量管理系统(BMS)的重要组成部分。调压问题是制约开关电容变换器发展的重要因素。本文主要对串联锂电池的均衡和对部分功率调压开关谐振腔变换器(PPVR-STC)的小信号建模及闭环控制进行研究。首先对现有的串联锂电池均衡电路进行分类及优缺点总结。本文采用了电池组之间、组内单体之间分别均衡的分层均衡方案。针对电池组之间的均衡,提出了一种多绕组CLLC顶层均衡电路,该均
双输入逆变拓扑不仅通过单个逆变器集成两个输入端,实现两个电源同时或分时向负载供电;而且在新能源发电场合,相较于传统的两级式逆变器,能实现部分能量的单级传输,因此具有高集成度、高效率和高功率密度等优点。目前对于双输入结构逆变拓扑的研究还比较少,尤其是在电机变频调速等需要逆变器四象限运行的场合,仍为一片空白。本文以此为出发点,提出一种基于双降压型、具备四象限运行能力的双输入五电平逆变拓扑,以解决双输入
目前,我军对地攻击弹着点检测评估主要采用人工报靶方法,该方法人力消耗大,实时性差,精度差,己远远不能满足现代化科技练兵的实际需要。为提高我军现代化作战水平,迎合现代化、科技化战争的需求,精确打击效能评估系统应运而生,它主要利用无线传感器网络来实现对弹着点的定位。其中传感器节点的自身定位是弹着点定位的前提和基础。集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获
随着人们对社会安全要求的增加,基于生物特征识别的智能身份鉴别方法逐渐受到广泛的关注。由于虹膜识别具有高可靠性和非侵犯性,它正成为生物特征识别领域中的一个研究热点。作为一个应用性很强的研究课题,虹膜识别正在从实验室走向社会应用,但是虹膜识别的研究还远远没有达到完善的程度。本文的工作以建立基于虹膜识别的身份鉴别原型系统为目标,重点研究了虹膜定位和虹膜特征提取与匹配方法。基于虹膜内外边缘近似为圆,当以圆
学位
随着信息技术的飞速发展,各行各业已迎来大数据时代。分析大量数据的一大挑战是数据的准确性。数据,甚至描述同一个对象或事件,都可以来自多种数据源,如众包平台上的工人和社交媒体用户。然而,噪声数据是不可避免的。面对令人望而生畏的数据规模,利用人工“贴标签”或标注哪个数据源更可靠是不现实的。因此,从多个噪声数据源中识别出正确可用的信息,即真值发现的任务是十分必要的。  目前,面向多源数据的真值发现技术主要
学位
高分辨率指纹图像是指分辨率大于1000dpi的指纹图像。相对于传统的低分辨率指纹图像,高分辨率指纹图像中包含大量三级特征,如汗孔、脊线轮廓等,其中汗孔分布广泛且稳定,而且肉眼不可见,采用汗孔进行指纹识别能有效提高识别系统的精度和防伪能力。基于这些原因,结合汗孔的高分辨率指纹识别受到众多学者的关注,已经成为指纹识别领域研究热点问题之一。目前,针对高分辨率指纹的研究主要集中在汗孔提取、匹配和检索等几个