论文部分内容阅读
传统的密码术通过实施各种变换,把可理解的明文变成不可理解的密文,为隐秘信息的保护提供了有力的手段。然而,密码术有其固有的缺点,它在扰乱明文使其不可理解的同时,也暴露了信息的隐秘性、重要性、信息的发送方和接收方等重要信息,容易引起第三方的注意并受到攻击。另外,有些国家的政府已经对密码术的使用进行限制。信息隐藏则能很好地克服密码术的这些缺点,规避人为的使用限制。信息隐藏掩盖了隐秘信息的存在,大大地提高了信息传输、存储的安全性。文本信息隐藏是以文本为隐藏载体的信息隐藏,它通过利用文本在格式、编码、结构、语法和语义等方面的冗余,把隐秘信息隐藏到文本之中。在互联网中,文本信息起了非常重要的作用,其数据量也非常之大,加之文本处理的直观性更强的优点,使用文本进行信息隐藏是一个吸引人的想法。语言隐写术作为文本信息隐藏的一子类,使用文本中自然语言内容的冗余来隐藏信息,并以安全通信为主要目的。它相对于其它的文本信息隐藏方法,具有更高的安全性和更强的鲁棒性,因而更受研究者关注。语言隐写术是信息隐藏和自然语言处理有机结合的产物。语言隐写术分析是指对可疑文本进行分析,发现语言隐写术的使用并拦截、破坏和还原所隐写的隐秘信息。语言隐写术分析是语言隐写术的逆向研究,它可分为检测分析和还原分析两个阶段。语言隐写术分析的研究,对维护国家安全和社会稳定有着重要的意义。本文一方面深入调研各种常见的语言隐写术的隐写原理,研究其分析问题,提出其相应的分析方法,并进行相关的实验验证;另一方面则在对现有语言隐写术了解和分析的基础上,研究设计更安全的语言隐写术。有鉴于此,本文的研究内容包括:1)研究常见语言隐写术的检测分析:研究语言隐写术的盲检测分析思想,设计高效实用的检测分析算法,编写相应的检测分析工具,进行相关的实验验证。2)研究常见语言隐写术的还原分析:对语言隐写术还原分析问题进行合理地定义和建模,提出还原分析思想,设计相应的还原分析算法。3)设计一个文本信息隐藏分析系统,对系统用户来说,实现对包括各种语言隐写术在内的文本信息隐藏进行盲检测分析或者近似盲检测分析。4)在借鉴现有语言隐写术设计经验的基础上,提出更安全的语言隐写术,并对其安全性进行理论分析和实验验证。对以上的研究内容,本文以各种自然语言处理技术为基本手段,采用了概率统计分析的方法,并结合了机器学习和人工智能的思想进行研究。另外,本文还采用了理论分析和实验验证的方法对所提出的一些算法进行论证。在这些研究的基础上,本文取得了一定的创新成果,主要包括如下:1)针对不同大小的待测文本段,设计了基于语法的语言隐写术的三种盲检测分析算法,即基于词间关联统计特性、基于词位统计特性和基于检测熵的算法,并进行了相应的理论分析和实验验证,取得了良好的检测分析效果。对基于句子模板的语言隐写术的还原分析问题进行建模,并设计了一种可行的还原分析算法。2)构建了基于语义的语言隐写术的分析框架,设计了一种基于同义词替换的语言隐写术的检测分析算法,并进行了理论分析和实验验证,取得了良好的检测分析效果,设计了一种基于同义词替换的语言隐写术的还原分析算法,并进行了相关的理论分析。3)提出了通过构建一个合适的文本信息隐藏分析系统以达到盲检测分析或者近似盲检测分析目的的方法,给出了这种系统应该满足的特性,即可扩展性、自适应性、可反馈性和可学习性。基于这个设计思想,提出了一个具体的系统设计方案,并分析讨论了该设计方案是如何满足盲检测分析要求的。4)探讨了语言隐写术的安全性要求,根据此要求,提出了两种安全的语言隐写术,即基于双文本段的语言隐写术和基于上下文同义词替换的语言隐写术,并分别对它们进行了安全性的分析和评估。上述的成果1)、2)提高了对语言隐写术检测分析的正确率,丰富了语言隐写术的检测分析技术,并首次探讨了语言隐写术还原分析问题。成果3)提出了通过构建一个合适系统以实现盲检测分析或近似忙检测分析的思想,并提出了一个具体的系统设计方案。成果4)给出了两种新的更安全的语言隐写术。