基于机器学习的视频质量评价

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hbimac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数码相机、智能手机、平板、计算机等移动电子设备的日益普及,人类对传输高质量图像和视频的需求正在迅速增加。视频内容提供商保证最终用户的体验质量是一个关键问题。高质量的图像和视频数据对众多应用也至关重要,例如3D电视系统、监控系统、移动视频系统和会议系统。在视频数据到达最终用户之前,需要经过三个主要阶段:由捕获设备生成、使用编解码器进行压缩、通过通信信道传输。在这三个阶段过程中,视频都可能会产生各种各样的失真。本文提取视频常见时空损失特征和自然视频统计(Natural Video Statistics,NVS)特征,基于机器学习中的长短时记忆网络(Long Short-Term Memory,LSTM),提出了两种无参考视频质量评价方法,尝试对视频的质量进行预测。论文使用的数据集来自于MCL-V主观视频质量数据库,其中包括12个原视频序列和96个失真视频序列以及对应的主观视频质量分数。本文的主要成果总结如下:1、本文提出了一种基于视频常见时空损失特征与LSTM的无参考视频质量评价方法LSTM-ST-VQA(LSTM-Spatiotemporal-Video-Quality-Assessment)。该方法中提取了视频中的常见时空损失特征(高斯噪声、模糊、块伪影等空间维度的损失以及抖动、闪烁、蚊式噪声等时间维度的损失),搭建了一个以视频常见时空损失特征为输入的三层隐含层的无参考视频质量评价模型LSTM-ST-VQA。为避免数据预填充对模型性能带来的影响,加入了一个掩码层用于处理视频帧数与网络输入大小不一致问题。在MCL-V视频数据库上进行训练与测试。实验结果显示,提取的时空损失特征能够表征视频的质量,LSTM-ST-VQA方法预测得到的视频质量预测分数和主观质量分数之间的皮尔逊相关系数(Pearson Correlation Coefficient,PCC)优于针对该数据库的所有视频质量评价方法。2、本文提出了一种基于NVS特征与LSTM的无参考视频质量评价方法LSTMNVS-VQA(LSTM-Video-Statistics-Video-Quality-Assessment)。通过计算视频每帧图像的局部归一化亮度(Mean Subtracted Contrast Normalized,MSCN)系数与水平方向上MSCN系数对的乘积,并分别采用广义高斯分布(Generalized Gaussian Distribution,GGD)和零均值非对称广义高斯分布(Asymmetric Generalized Gaussian Distribution,AGGD)拟合,得到GGD均值与方差以及AGGD均值、形状参数、左方差和右方差总计6个自然场景统计特征,以此量化由于失真而可能造成的“自然度”损失。此外,使用3个不同等级的帧冻结时间特征表征可能存在的时间损失。将这9个特征统称为NVS特征。基于LSTM网络,搭建了一个以NVS特征为输入的三层隐含层的无参考视频质量评价模型LSTM-NVS-VQA,在MCL-V视频数据库上进行训练与测试。实验结果显示,NVS特征能够更好地表征视频的质量,LSTM-NVS-VQA方法预测得到的视频质量分数和主观质量分数之间的PCC相关系数远优于针对该数据库的所有视频质量评价方法,与人类主观感知分数间呈强度正相关。本文的研究表明,基于视频常见时空损失特征和NVS特征的无参考视频质量评价方法是有效的,预测得出的视频质量分数与人类主观感知分数间呈强度正相关。
其他文献
常言道,一图胜千言,很多时候一张图片带来的信息胜过千言万语。随着互联网的迅速发展,人们越来越热衷于分享图片来替代文字表达自己的情感。心理学家研究发现,人类会对所看到的图像产生不同的情感响应,因此可以借助图像情感分析对社交网络上获取的数据进行研究,提升互联网数据分析的准确性,该方向有着广泛的应用前景,如态度挖掘,政选预测,抑郁检测等。图像情感分类任务旨在利用机器学习算法对图像中的情感信息进行挖掘,并
学位
Petri网是离散事件系统建模和分析的重要工具。它能够方便地描述系统中部件的顺序、并发、冲突以及同步等关系。由于其良好的属性,Petri网已广泛应用于柔性制造系统建模和控制。对于柔性制造系统中的事件冲突和特定控制需求,优先约束有重要的意义。为了解决柔性制造系统中的这些问题并高效利用系统资源,本文研究了有界Petri网中优先约束的最大许可监督控制并取得以下成果。1.提出了优先约束的数学描述以及优先约
学位
工业互联网作为国家十四五规划中现代化基础设施体系的重要新型设施,是工业领域和信息技术结合的新型应用模式。轴承是工业互联网中现代机械设备系统的重要组成部分,为了提高系统可靠性,需要部署于边缘设备的故障诊断模型实时检测轴承信号状态。使用轴承振动信号进行故障诊断面临噪声干扰、诊断数据短缺以及诊断计算开销大的挑战,亟需提出故障诊断的方法以实现轻量化精确诊断工业设备数据。现有以循环神经网络为代表的轴承故障诊
学位
单细胞转录组测序技术(single-cell RNA sequencing,scRNA-seq)是当前从单个细胞水平上研究其转录状况、分析差异基因和识别细胞类型的有力工具。由于生物方面和技术层次的原因,scRNA-seq数据具有样本量大,高维稀疏的缺陷,给其聚类分析带来了巨大挑战,且当前大多数细胞聚类算法仅利用scRNA-seq数据分析细胞的异质性,导致细胞聚类准确性低。非负矩阵分解(Non-ne
学位
在当前追求可视化和信息化的时代,图像传感器作为采集图像信息的工具,已经被广泛应用于手机、汽车、医疗、探测、安防等领域。随着CMOS工艺技术的进步,CMOS图像传感器的性能逐渐赶超CCD图像传感器,并因其易集成、低成本、低功耗的特点,逐渐占据了主流市场。而随着科技的发展,人们对图像传感器的性能要求也在提高,传统CMOS图像传感器的动态范围已经无法满足许多领域的需求。对数结构的CMOS图像传感器在动态
学位
近年来,集成电路技术产业迎来新的发展契机,广泛应用于消费类电子产品的电源管理芯片领域获得良助,开关电源作为核心成员,因其高功率密度、宽应用范围、多功能特性等优势,备受当前市场垂青。本文结合传统降压型DC-DC输出电压范围窄、因工作频率单一而无法应对噪声敏感型应用的不足,设计了一款恒频可调、宽压高效的降压型DC-DC转换器XD2112。本文植根于降压型DC-DC的理论研究,选用脉冲宽度调制和双环控制
学位
随着科学技术的飞速发展,数据的获取方式和内容形式获得了极大的提升,如何从复杂的数据中挖掘出最有效的信息成为制约模式分类算法性能的关键问题。本文立足于表示学习框架,并借鉴深度学习理论,对表示学习的三个主要分支即协作表示、子空间表示,字典表示分别展开研究,提出了隐子空间协作表示、深度字典对表示等系列算法,以提取数据中的有效表示特征进行分类,所取得的研究成果如下:针对由于原始数据中存在噪声和冗余特征以及
学位
遥感影像技术是上世纪60年代兴起的一门对地观测技术,它是依据电磁波理论运用多种传感器对远距离地面目标的电磁反射信息进行收集、处理并最后成像,从而对地物目标进行探测与识别的一种综合性技术。遥感影像技术在海洋资源监测,农作物产量估计以及灾害监测领域有着非常重要的实用价值,因而一直以来都是热门的研究方向。近年来随着高性能传感器的推陈出新以及遥感卫星从军用化迈入商业化的快速发展,大量高光谱、高分辨率、多时
学位
数字信号具有再生性强、有效性高、抗干扰能力强和便于加密等优点,所以在信息处理过程中,往往将所测的模拟信号映射到数字领域进行处理。模数转换器(ADC)作为混合信号处理过程中实现模数转换的必备器件,是现代电子系统的核心电路之一。随着集成电路技术的发展,数字领域的革新速度迅猛,ADC作为模拟系统和数字系统的接口,需要不断提高其功能和性能。在众多ADC架构中,逐次逼近型(SAR)ADC拥有高速高精度低功耗
学位
随着生物医学的迅速发展,各种形状和尺寸的身体中心植入物在临床医学上得到了广泛的应用,但是随着时间的推移,身体中心植入物可能会出现移位、损坏等各类问题,为了减少这些问题对人的健康造成威胁,我们需要对这类人群进行定期检测。身体植入物大多数是由金属及其合金制成的,在强磁场下金属会产生移位和发热等效应,许多传统的医学成像技术难以对其检测,故本文设计一套微波成像系统用于检测身体中心植入物。在微波成像中,首先
学位