论文部分内容阅读
随着互联网的兴起与蓬勃发展,信息检索技术成为了人们生活中不可或缺的工具。在某些场合中,为了达到保护用户信息的目的,提出安全索引这个概念,即在保证用户信息不被泄露的前提下,同时能达到信息检索的目的。根据当前所存在的问题,实现了两种具有安全索引的全文检索系统。第一种是基于倒排文档的安全索引模式。它采取了倒排文档作为其索引结构,在索引及查询阶段对文本进行了加密处理,并在写入索引时采取了二次加密手段,在实现了安全索引的基础上很好地继承了倒排文档结构快速准确等优点,但是对于选择明文攻击和频率统计等攻击手段尚不能有效防御。另外针对倒排文档的安全性不足,设计实现了另一种安全索引模式:基于陷门单向函数的安全索引模式。将陷门单向函数用于信息检索中,与伪随机函数相结合,其不可逆和伪随机特性极大地弥补了倒排文档技术在安全性上的不足,可以很好抵御诸如选择明文攻击等攻击手段,从而更加安全地保护了用户信息。但是计算上的复杂性、与倒排结构的不兼容导致了其检索效率的低下,此外占用的空间大,存在着一定的误判机率等都是其不足之处。分析了两种索引方式进行检索的原理及各自的安全性,并分别用代码实现了两套索引系统S-Lucene及BF-Index。S-Lucene在开源搜索引擎Lucene的基础上,进行安全性定制;BF-Index时,则采用了Bloom Filter作为索引存储结构。通过实验在各方面性能上对两套系统进行了对比,包括建立索引时间、查询时间、准确率等。通过实验数据分析了两套系统各自的优缺点,并明确以后改进的方向。