论文部分内容阅读
随着互联网大数据的普及,云计算作为一种多技术的集成创新,企业和个人越来越愿意应用各种便捷高效的云服务进行海量数据存储和共享。但这也带来了隐私泄露的问题。用户在上传数据前对本地明文信息加密是最简单有效的保密方式,可搜索加密技术(SE)可解决明文检索技术不能对云端存储的密文直接进行检索运算的问题。然而,传统的可搜索加密排序方案在使用关键词频权重进行检索排序时,仅单一化无差别的返回所有已检索密文信息,并未考虑用户的检索习惯和兴趣偏好,不但增加了用户检索信息的冗余度,还造成了网络和本地资源的浪费。本文主要的工作如下:(1)针对传统加密检索排序方式全部返回密文检索结果造成的资源浪费问题,设计以MapReduce为基础的SE检索排序方案。该方案采用文档集分片模式,并结合文件管理系统HDFS和并行编程MapReduce技术,在Hadoop上执行并行检索排序操作,对于处理大规模文档集有优势。(2)针对传统加密检索排序方式无法满足个人检索偏好的问题,设计基于云环境下的个性化兴趣模型的SE检索排序方案。该方案为每个用户建立兴趣模型,量化生成对应“关键字-文档”的不同的优先级,结合TF-IDF清洗算法处理值和兴趣模型关键字优先级,采用Secure KNN计算得出符合用户偏好的相关度分数,实现了个性化表达用户的检索需求。通过实验仿真表明本文方案节省了处理数据的资源开销,提高了检索密文时返回相关度排序靠前的k个文档数据的检索效率和精度。