论文部分内容阅读
越来越多的个人数据(照片、文本、位置信息和个人资料等)被用户发布在社交网络上,使得个人数据的隐私安全遭到威胁。现有社交网络平台的隐私策略机制,无法有效地保护用户数据的隐私,因为统计发现大量用户不能正确设置隐私策略。为帮助用户设置和管理隐私策略,隐私策略自动化的概念被提出。目前相关研究主要针对图片、位置和个人资料提出相应的隐私策略预测方法,鲜有研究针对文本内容隐私策略预测展开研究。从隐私安全的角度来看,由于非结构化的文本数据表达了个人观点、生活习惯等敏感信息,容易导致用户的隐私遭到威胁。本文针对文本内容隐私策略预测技术展开研究,工作如下:⑴提出基于文本内容的个性化隐私策略预测方法。通过分析文本语义、情感倾向和社会上下文环境对该用户隐私决策产生的影响。基于用户历史隐私偏好以及随机森林算法构建个性化隐私策略预测模型。实验结果表明,该方法预测精确度大于70%,能够有效减轻用户手动设置隐私策略的负担。该方法依的缺陷在于,预测模型依赖用户历史隐私偏好,当出现新用户或用户历史策略只有一种策略的时候(冷启动问题),本方法将不再适用。⑵针对文本内容的个性化隐私策略预测技术的不足之处,提出了基于众包概念的粗粒度隐私策略预测方法,向新用户“推荐”隐私策略。通过分析众包用户颇具一般特性的隐私偏好,作为给新用户“推荐”隐私策略的参考。先从已有其他用户历史数据中,找出和目标文本动态最相似的k条文本动态以及对应的隐私策略,构建众包数据。然后分析众包数据的文本语义、情感倾向和社会上下文环境,对新用户的文本内容进行粗粒度的隐私策略预测。实验结果表明,该方法预测精确度维持在50%以上,相比于随机选择或使用默认隐私策略具有更好的效果。