论文部分内容阅读
近年来,数字水印的研究主要集中在图像和音视频等领域,而对文本水印的研究较少。由于文本本身的特点,在其中加载水印的难度较大。已有的研究结果普遍存在非格式化文本难以嵌入水印、格式化文本的水印严重依赖文本的格式特征、水印难以深入到文本的内容中、水印嵌入容量不足、鲁棒性较差等问题。针对以上问题,本文提出了在文本中分别加载不同的水印,将自然语言处理技术、零水印、不对称加密和数字时间戳等技术应用于文本水印技术,来对文档进行版权保护、完整性验证、文档真伪鉴别等。具体说来,本文的主要工作如下:1.对目前文本水印的发展状况进行了较详细的分析、归纳和总结,提出了目前存在的一些需要解决的关键问题。在介绍了文本数字水印的概念、特点、研究现状的基础上,提出了一种在文本中加载多重水印的技术,该方法不仅可以加载验证版权信息的鲁棒性水印,还可以加载验证文本完整性以及有无篡改等信息的脆弱性水印。2.提出了一种新的基于中文分词的水印技术。利用自然语言处理技术中的中文分词对中文文档进行分词处理,在此基础上,剔除不重要的和无意义的词语,并提取数字摘要来唯一标注文档。同时对于每个文本段也提取其数字摘要,并将这两个数字摘要与作者版权信息同时嵌入每个文本段后的格式控制字符中。借鉴了生物界繁衍延续的方法,将水印信息多次重复嵌入,只要没有移除和破坏嵌入的所有水印,就能检测出水印信息。实验结果表明,该方法隐蔽性好,鲁棒性强,即使对文本进行格式攻击和存储攻击也不会丢失水印信息。3.给出了一种基于时间戳认证的零水印算法。在对文档进行预处理后,提取出能唯一标识文本的数字指纹,并与版权信息绑定后生成水印信息。然后向时间戳权威机构TSA申请时戳,TSA对用户的水印信息加盖时间戳,生成含有时间戳信息的零水印。将数字时间戳零水印与文件进行绑定后,就可以作为该文档的版权信息在某段时间内有效的证明。在同一个文档中同时嵌入几种水印方案时,要考虑这几种水印相互间的影响。本文提出的多重水印因为嵌入的载体不同,也没有改变文本的内容,因此这几种水印相互间没有影响。