论文部分内容阅读
随着计算机应用的普及与计算机网络的发展,即使在图像、视频和音频数据快速增长的同时,文本数据仍然是互联网上使用最多和最广的一种信息载体,这样就给电子文本的版权保护带来了巨大的挑战。如何保护作者、作品所有者的合法权益成了社会关注的热点,而作为版权保护重要手段之一的文本水印也备受关注。目前,文本水印的研究成果大都集中在嵌入式水印,通过改变载体信息来达到嵌入水印的目的,这样势必会对载体造成一定的影响,甚至会引起攻击者的注意,从而破坏水印。而文本零水印不需要对原始载体做任何修改,它是通过提取文本中的一些特征信息来完成水印的生成,很好地解决了数字水印的不可见性和鲁棒性之间的矛盾。本文针对中文文本零水印进行研究,深入分析已有的文本水印算法,结合自然语言处理技术,主要工作如下:介绍了数字文本水印的概念、特点、分类,并对已有的文本水印算法进行了详细的阐述和深入的研究,分析各自优缺点,总结了目前文本水印研究存在的一些问题。针对文本水印存在的嵌入复杂、水印容量不够及鲁棒性不强等问题提出了两种不同的文本零水印算法。一种是基于词性频率的零水印算法,该算法结合自然语言处理技术,从汉语词性出发,通过统计不同词性的频次确定中频词性,将该词性的词语作为文本特征来构造水印;另一种是基于词性信息熵的文本零水印算法,该算法利用前种算法中已有的词性频次来计算不同词性出现的概率,用该概率获得不同词语的信息熵,进而确定文本中每个句子的信息熵,选出句子信息熵大于阈值的句子,并进行核心词的提取作为文本特征信息。实验结果表明,这两种算法不仅能够抵抗删除空格、字体变换等格式攻击,也能抵抗增加、删除以及同义词变换、句法变换等内容攻击。