论文部分内容阅读
随着打印机的普及和打印成本的下降,打印文档在人们日常工作和生活中占据了越来越重要的位置,与打印文档相关的民事纠纷、刑事案件等越来越多。信息安全要求提供可靠的打印文档检验手段来鉴定问题文档的打印机来源,即机源认证。研究并解决未植入安全印记的普通消费类打印机输出文档来源问题,使之取得能与特殊打印文档相媲美甚至更好的识别效果,对普通民众和司法机关均有重要价值。本文研究总结了现有打印文档机源认证的技术,分析了打印文档检验面临的难点,提出基于纹理特征的打印文档机源认证技术方案,主要工作及创新点有:1.针对检材与样本之间有相同内容时的打印文档机源认证问题,研究了打印字符图像纹理特征提取方法,与传统方法相比显著提高了认证准确率。相同字符在不同打印机来源的情况下,其图像在高倍放大时纹理之间存在显著的差异性,实现了灰度共生矩阵(GLCM)特征和小波变换(WT)特征方法提取打印字符图像纹理特征,并采用支持向量机进行打印文档分类。识别准确率GLCM特征最高达到98.6%,WT特征最高达到95.7%。从实验上证明了打印文档纹理信息对打印文档机源认证的有效性。2.针对打印文档的纹理可鉴别性问题,提出打印字符纹理特征的因子分析模型。建立了打印机的纹理因素单因子方差分析模型,检验了不同打印机纹理因素的显著性,证明纹理因素可作为打印机鉴定的依据。建立打印文档字符因素和纹理因素的双因子分析模型,检验分析了字符因素和纹理因素对打印文档的影响,并建立打印文档纹理因素可鉴别性基础模型,从理论和实验上同时证明在高倍放大与字符数量足够多的条件下,利用纹理信息可以使打印文档机源认证准确率以概率1达到100%。3.针对检材与样本之间无相同内容时的打印文档机源认证问题,提出基于纹理合成的文本无关检验方法。字符结构对打印字符图像纹理特征的影响导致大多数传统的方法都只在检材与样本之间存在足量相同字的时候奏效,本文提出将打印字符图像看作纹理图像与字符结构的叠加,利用改进的Criminisi算法将字符内部纹理扩充到图像空白区域,消除字符结构,得到字符内容无关的打印纹理图像,然后进行机源认证。识别准确率最高达91.7%,解决了打印纹理分析的技术难点。4.利用打印字符图像的先验信息,提出利用高斯混合模型进行机源认证的方法。利用混合度为3的高斯混合模型,对打印字符图像分3部分进行建模,利用LBG算法设定模型参数初始值,利用EM算法优化参数,实验结果表明同一台打印机相同字符的模型参数分布基本集中,不同打印机的模型参数分布存在显著区别。最后将模型参数作为打印字符图像纹理特征送入支持向量机进行训练和测试,仅使用9维特征,在字符样本无重复的情况下识别率达到89.0%,重复20次的情况下达到91.6%。本论文通过对打印文档机源认证问题的深入分析,对打印文档的纹理信息进行研究与探讨,从各个方面充分利用不同打印机输出的文档之间纹理特征的差异,提取出了有效的打印文档图像纹理特征,取得较好的打印文档机源认证准确率。本论文的研究工作使计算机打印文档机源认证技术向实用化迈出了坚实的一步,对保护打印文档信息安全和维持稳定社会秩序具有重要的意义。