基于深度学习的多描述图像编码方法及研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:asdfghjki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,为了解决图像在信道传输过程中产生丢包或者误码失真的问题,多描述编码(Multiple Description Coding,MDC)作为解决上述问题的一种抗误码传输技术,能有效的提高数据传输过程中的鲁棒性。近年来,由于深度学习方法在计算机视觉领域上表现突出。因此,本文将深度学习与多描述图像编码方法相结合,分别以小尺寸图像和大尺寸图像为研究对象,提升边路图像重建质量和中心路图像重建质量,本文主要研究工作如下:(1)提出了基于卷积神经网络的小尺寸图像多描述编码方法。针对小尺寸图像在重建性能上不稳定的缺点,首先利用卷积自编码器建立多描述图像编码的模型,包括了多描述卷积编码网络(MDCEN)和多描述卷积解码网络(MDDEN)两部分,通过端到端的联合训练,提升网络整体性能。其次,提出将加性均匀噪声代替量化噪声来优化网络结构,解决传统量化函数不可导的问题。实验结果表明,该方法在边路重构图像和中心路重构图像在性能上优于其他现有的多描述编码方法。(2)提出了基于改进U-net网络的多描述编码方法。该方法借助U-net网络结合图像上下文信息,训练速度快的优点,用来提升图像重建质量。首先该模型框架由U-net编码网络和MD解码网络两部分组成,将图像经过预处理后输入到U-net编码网络经过卷积层下采样和上采样得到两个带有差异性的描述。随后进入MD解码端进行图像重建任务,得到两边解码图像和中心路解码图像。经过实验验证,该方法与其他文献方法相比在PSNR和SSIM比较上有所提高。(3)提出了基于SENet+U-net网络的多描述编码方法。该方法主要在改进U-net网络的多描述编码方法的基础上,引入SENet算法,使网络能够学习重要通道的特征信息,抑制不重要的特征信息,提高图像重建质量。最后,通过建立不同比特率下的模型对比。实验结果表明,所提出的方法在多描述图像重建质量的主客观性能评价指标上有了明显提升。
其他文献
人的面部表情蕴含着丰富的信息,通过观察人脸表情的变化,可以判断一个人的情绪状态。随着信息技术的发展,人们对人机交互界面的设计提出了越来越高的要求,使得人脸特征建模与表情生成技术在人机交互中发挥着非常重要的作用。如何设计一个具有真实感的人脸表情生成系统是研究人脸表情特征建模与表情生成的一个重要内容。本文通过对人脸表情特征的变化规律进行分析,研究基于回归的人脸表情特征建模算法,从而生成具有真实感的人脸
公共文化服务体系建设作为我国的全球文化战略,对我国经济持续发展和维护社会稳定具有重要作用,如今在新态势发展背景下,存在着供给不均、人才短缺等问题,因此,笔者将在本文中,在分析供给部门结构性改革对于公共文化服务系统基础建造方面,怎样有效提升公共文化服务水准,如何创建公共文化服务系统等方面提出了相对应的改革措施,进一步全面推动公共文化服务科学供给,强化公共文化团队建设,改善补充公共文化服务机制的目标。
随着无线通信业务的猛增,需要更多的频谱资源为用户提供数据传输服务,而当前大部分频谱资源都已经分配给特定的频谱使用者,这样的方式导致频谱资源利用率低的问题,因此认知无线电(Cognitive Radio,CR)技术应时而生,其中动态频谱分配问题是这个技术中的核心,出于提高频谱利用率的目的,本文针对认知无线电和频谱分配问题进行了研究,提出基于改进鲸鱼优化算法(Improved Whale Optimi
社会的发展带动着信息数据的高速运转,为了能更加直观、生动的获取我们所需的信息,数字图像进入了信息载体的“主流”之中。并且随着科技发展不断的推动,数字图像已经以不同形式在教育、医疗、通信、智慧农业、通信等方面发挥着极为关键的作用。快速的发展也带来了一定的弊端,尤其是图像的清晰度问题,使得对于真实信息的获取受到了一定的阻碍。在图像的采集和传输过程中,由于外界环境以及传感器本身的影响,图像会不可避免受到
随着经济发展,社会文化水平提高,文化馆的全民艺术普及事业也开始步入了类似于社会经济"中等收入陷阱"的阶段,传统的文化服务模式已经越来越不适应人民群众对于公共文化服务的要求,文化馆必须进行供给侧结构性改革,引进社会力量,创新服务机制,由传统性文化馆转型为现代型文化馆,以新的模式,继续推进全民艺术普及。
手势是一种多方面的通信方式,在非语言交流和人机交互中扮演着重要的角色,它们为人机交互(HCI)提供了一种具有吸引力的方案。其中最开始的交互方式,是通过数字手套,生物肌电,kinect深度设备等外接硬件,逐渐发展为基于计算机视觉算法的方式,深度学习的最新进展极大地提高了图像识别的性能,这种方式脱离硬件设备,符合人们方便快捷的使用习惯,但是在手势变化、光照变化或背景复杂的不利现场情况下,手势识别仍然存
(1)随着5G新空口信号处理技术和超大规模MIMO(Multiple Input Multiple Output,MIMO)密集组网用户技术的广泛运用,当前通信系统中信道传输容量及信号调制技术方案不易匹配超高密集组网应用场景。本文在大规模多输入多输出(MIMO)通信系统背景下,对基于卡尔曼滤波算法下的滤波器组多载波技术FBMC调制技术方案进行研究。因FBMC调制技术方案在超大规模MIMO密集组网和
空间众包是指任务执行者前往特定地点完成众包任务,该工作模式已被大众广泛研究使用。空间众包工作模式包括工人招募与任务分配两个环节。工人招募中工人用户向服务器提交个人位置信息进行注册时会存在具体位置隐私泄露问题;任务分配环节中空间众包服务器通过任务分配算法将任务派发给工人用户,会存在工人区域位置隐私泄露以及时间开销过大的问题。针对以上众包工作模式存在的问题,本文所完成的工作包括以下内容。(1)研究直接
图像的语义分割是指根据语义信息识别出图像中对应物体的类别和位置,是计算机视觉领域的研究热点之一。相对于传统的图像分割算法,基于深度学习的分割算法不仅能自动的进行特征提取,还可以进行端到端的训练,分割精度和速度均有所提升。然而,由于室内场景的复杂性,室内场景的语义分割仍然极具挑战。随着深度相机的出现和发展,研究者们开始利用深度信息提高语义分割的精度。在这种情况下,本文针对室内场景的语义分割算法进行了
增强现实技术将虚拟信息与真实环境进行融合,实现虚拟信息与真实环境在光照、几何和时间方面的一致性,增强人类对真实世界的感知。增强现实技术的几何一致性需要确定移动设备在现实世界的位置从而准确添加虚拟信息。视觉定位技术具有高精度和无需部署设备的优点,可以实现对移动设备的实时定位。目前传统视觉定位技术在光照强烈变化的情况下存在检索失败与检索速度慢的问题,本文针对该问题做了如下工作:1.针对传统视觉定位方法