论文部分内容阅读
Web2.0时代以来,协同信息系统的广泛应用为知识共享和再创造需求提供了强大的平台。除了被部署在单纯信息共享的学习型组织上,该系统已经成为涉及隐私、安全等重要领域的核心工作环境,一旦出现隐私泄漏则后果不堪设想。与来自外部的隐私窃取相比,源于内部的威胁行为成功地避开了现有的身份验证机制和访问控制策略,多数安全机制无法对其进行探测。基于如上背景以及中国科学院计算机网络信息中心中国科技网研发的分布式科研协同平台“科研在线”的实际需求,本文开展内部隐私威胁检测的研究。 本文的研究基于如下实际情况:1)绝大多数协同信息系统无法获得准确且全面的窃取隐私行为特征集合,并可以利用此特征来进行分类器的训练;2)窃取隐私行为一般隐藏在一系列正常的访问行为中,极难被发现;3)窃取隐私行为的出现将对用户所在的局部网络的离散程度产生重要影响。 本文为内部隐私威胁检测的需求提出一种新模型,该模型在宏观层面充分利用用户的访问行为日志以及共享数据的语义标签类别来抓取用户的访问行为模式以及模式之间的相似程度;在微观层面提出一种局部访问网络的离散程度值及其差异,用以评估数据集中每一个访问行为的异常程度。离散程度值的差异值越大,表明相应访问行为的异常程度越高,反之越低。本文通过随机模拟分析,从模型对单一用户产生的不同威胁行为数量的敏感程度以及对多个用户产生的不同威胁行为数量的敏感程度出发分别进行评估和分析,得出在平均AUC(曲线下面积)值上,新模型具有较好的预警性能以及相比之下非常显著的预测稳定性。本文分析了新模型直接在数据集上应用的结果以证明模型的有效性。最后,本文提出了模型的不足和改进方向。