论文部分内容阅读
随着移动多媒体应用的兴起,人们对互联网的需求已经不再仅限于信息交流、图片共享等,而是利用互联网的丰富资源(比如计算能力、存储资源以及数据资源等)去获取更多有用的信息,比如通过移动端采集图像,发送到云端做图像检索、目标识别等计算机视觉任务。然而,由于网络传输带宽有限,为了降低在诸如此类移动-云计算系统中图像的传输码率,我们需要重新定义基于多媒体应用的图像编码以及图像质量评价。与传统的图像编码和图像质量评价不同,本文提出了以下两种新型方案来节约码率。 首先,我们从编码本身入手。由于压缩图像是用于自动识别等任务而不是供人眼欣赏,因此在压缩时我们不再关注视觉质量,而是假定与识别目标相关的语义特征的质量更为重要。据了解,尺度不变特征变换(Scale InvariantFeature Transform,SIFT)特征已广泛应用于各种目标识别场景,最近也已经有很多关于保留SIFT的压缩编码方法的工作。本文中,我们首次研究了保留SIFT特征的新型图像编码方案,这一方案主要针对信宿是计算机视觉算法而不是人眼视觉。我们根据提取的SIFT特征,将图像划分成SIFT编码单元(目标区域)和非SIFT编码单元(非目标区域),并用修改后的JPEG对图像进行压缩编码,压缩时对不同的编码单元设置不同的质量参数。实验结果表明,在不影响识别精度的前提下,我们的压缩方法平均比标准JPEG节约14%左右的码率。 另一方面,我们通过设计可靠的图像语义质量评价(Image Semantic QualityAssessment,ISQA)指标来指导编码,最优化编码效率。基于上述信宿是计算机视觉算法而不是人眼的应用场景,我们假定压缩图像的质量应该由图像压缩后保留的相关语义特征的质量来衡量,而不是像素保真度(例如Peak Signal-to-Noise Ratio,PSNR)或者视觉质量(例如Structural Similarity Index Measure,SSIM)。本文中,我们研究了基于SIFT特征的ISQA方法,首先提取压缩前后图像的特征(SIFT特征和稠密SIFT特征),并结合统计学习的方法对压缩前后特征的失真进行建模,建立特征失真度与压缩图像质量之间的映射关系,根据模型的两种误判类型的代价不同定义传输代价函数,求解在给定预测精度前提下,压缩时的最佳操作点,并统计在不同操作点下压缩图像的平均码率。实验结果表明,我们提出的ISQA方法在评估压缩的车牌图像(或路标图像)能否被识别这方面要比PSNR和SSIM的性能高很多,将我们的压缩方法应用到车牌(或路标)压缩系统中,比PSNR或SSIM至少提高58%(37%)的压缩性能。此外,我们还研究了在路标图像能否识别上,我们提出的ISQA方法与人眼是否一致。实验结果显示,我们的ISQA算法与人眼主观评价之间的皮尔森线性相关系数(Pearson Linear Correlation Coefficient,PLCC)达到0.8401,而均方根误差(Root Mean Squared Error,RMSE)低至0.5325,表明我们提出的ISQA算法在文本图像识别上与人眼有高度的一致性。 本文从移动-云计算的应用场景的角度出发,首次提出了针对信宿是计算机视觉算法的一种新型压缩编码方案以及图像语义质量评价的算法,并通过大量实验验证了该算法的有效性。对于算法中的不足之处,将在以后的科研工作中加以关注。