论文部分内容阅读
随着互联网信息的迅速增长,个性化搜索已成为提高用户搜索效率的重要技术之一。个性化搜索的本质是通过用户历史搜索记录来构建用户兴趣模型,为用户提供准确的搜索服务。但随之引发的用户隐私泄露问题不仅损害了用户利益,也使得个性化搜索服务遭遇到了前所未有的信任危机,因此个性化搜索隐私保护技术应运而生。而现有个性化搜索隐私保护的研究中仍存在不足,如没有区分搜索内容的敏感性,对每次搜索采用相同的隐私保护方法;用户查询偏好和共现行为导致用户查询意图泄露的问题。针对以上问题本文提出了个性化搜索的隐私保护方法,其主要工作如下:首先,针对现有保护方法中没有区分内容敏感性,对用户的每次搜索采用相同隐私保护方法的问题,本文提出了敏感性搜索内容的隐私保护算法。通过分层树算法和ODP网页分类目录建立了用户动态兴趣模型,再基于TextRank算法对用户搜索内容进行关键词提取,将提取的关键词与用户兴趣模型进行关联度计算,确定出用户搜索主题。基于提取的主题与用户信息集合建立敏感性约束,并实现对搜索内容进行敏感性计算,对搜索内容的敏感性进行区分,根据敏感值高低采用了不同强度的隐私保护方法。通过理论和实验分析,该算法实现了对搜索内容的敏感性进行区分、并依据敏感值对用户搜索提供了不同强度的隐私保护。其次,针对用户查询偏好和共现行为导致用户意图泄露问题,本文提出了混淆查询意图的隐私保护算法。通过引入用户记忆衰减模型构建动态混淆集,使得查询记录的敏感性保持动态更新,并确保使用低敏感的查询记录生成混淆集。此外,对于用户连续搜索内容中存在的共现行为,通过提取搜索内容的共现词,并进行相似语义替换。基于随机数匿名混淆算法对用户查询意图进行混淆,从而实现用户查询意图的有效保护。通过理论分析和实验对比,该算法实现了用户查询意图的有效保护。最后,应用本文提出的算法设计并实现了隐私保护的个性化搜索系统,主要包括敏感性内容分析、查询混淆和隐私保护等功能,并对系统进行了功能和性能测试。通过系统实现有效验证了本文提出的个性化搜索隐私保护方法,实现了用户搜索内容的敏感性区分,对用户查询意图进行了有效混淆,为用户个性化搜索提供了安全可靠的保护。