论文部分内容阅读
近年来,随着移动通信和多媒体技术的飞速发展,移动视频业务呈现爆发式的增长趋势,新业务不断涌现。如何保障移动视频业务的用户体验质量(Quality of Experience,QoE)是移动视频产业和整个移动互联网行业需要重点解决的关键问题。为此,对移动视频业务的用户QoE进行准确评价是十分必要的。影响用户QoE的各种因素众多,既涵盖主观因素,又涵盖客观因素。QoE评价的本质就在于建立各类影响因素与用户主观感受之间的映射模型,表征QoE与其影响因素之间的内在关联关系。QoE的主客观影响因素之间相互作用,给准确建立QoE评价模型带来了巨大的挑战。本文深入开展了移动视频QoE评价方法的研究工作,利用机器学习方法,从发送端、网络端和客户端等不同角度出发,分别建立了三种移动视频QoE评价模型,具体研究内容包括:首先,提出了一种基于内容特性的H.264视频质量评价模型,用以对发送端的H.264码流主观感受质量进行准确评价。通过对H.264的码流结构的深入解析,提取出了质量参数QP、运动矢量MV、视频帧内宏块的编码类型以及ICT非零系数等码流参数。接下来,对提取出的码流参数进行处理,提出了两个描述视频内容特性的指标,定义为视频运动复杂度和视频纹理丰富度。与目前被普遍采用的描述视频时间特性和空间特性的TI、SI两个指标相比,本文提出的指标能更好地表征视频的时空特性,并且与人眼的主观感受相符合。最后,本文将这两个视频内容特性指标与其它的H.264码流参数组合成特征参数矢量。以此作为输入,以主观MOS分值作为输出,利用深度神经网络,在包含180个视频的数据集上进行训练,建立了一种基于H.264的视频质量评价模型。从实验结果上可以发现,采用本文提出的模型,皮尔逊线性相关系数PLCC和斯皮尔曼秩相关系数SROCC可以分别达到0.9941和0.9893,足以验证该模型在预测H.264视频码流主观感受质量的准确性上具有良好效果。其次,提出了一种基于DASH协议的移动视频QoE评价模型,用以对网络传输后的H.264视频码流质量进行评价。该模型依据DASH协议,提取出视频的初始缓存时间、卡顿次数及时间、码率向上或向下切换次数等参数,结合视频内容特性参数-视频运动复杂度和视频纹理丰富度,形成特征参数矢量。以此作为输入,以MOS分值作为输出,利用深度神经网络建立输入特征参数矢量和输出之间的映射关系模型,用于对移动视频业务的QoE进行评价。在对Waterloo SQoE-III公开数据集进行测试后发现,采用本文提出的模型,PLCC和SROCC分别达到0.9632和0.9574,证明本模型可以准确预测移动视频的QoE。最后,提出了一种基于深度时空特性的客户端视频质量评价模型,用以对客户端的播放视频质量进行评价。该模型将3D CNN和LSTM深度神经网络结合起来,提取客户端播放视频的深度时空特征,以此作为输入的特征参数矢量,以MOS分值作为输出,利用深度神经网络建立播放视频的质量评价模型。实验结果表明,该模型的预测准确率可以达到99.16%,RMSE仅为0.1104,证明了本模型可以准确预测客户端播放的视频质量。