论文部分内容阅读
日益增长的网络安全威胁促使各种安全防御机制应运而生,这些安全机制大都需要分析网络数据流,以发现违规行为和有害信息。当前的数据流安全管理主要基于关键字分析,未全面考虑关键字所在的网络上下文环境信息,比如关键字所在网页的内容语义和浏览该页面的网络用户类别信息。为此,本文从影响数据流安全管理的用户行为、内容分析和管理调度三个方面开展研究,主要贡献为:1.在用户维度,提出一种用户行为预测模型,该模型使得数据流安全管理系统可以针对用户类别实行差别化管理。具体来说,该模型通过收集网络用户的网页点击行为数据和搜索行为数据,构造一个关联用户行为和用户类别的预测模型。对比于以往的用户行为分析方法,该模型有以下创新:(i)构建全而的行为类别体系和行为特征空间,借鉴概率潜在语义分析思想,提出了一种用户潜在行为倾向发现方法来挖掘“用户-行为”共现中的倾向语义;(ii)该模型结合安全管理的应用背景,发现倾向的描述能力较弱,设计了一种“倾向-类别”映射关系学习算法,同时对该学习算法的信息转换等价性进行了理论分析;(iii)针对预测结果,设计了相应的度量指标和评估办法,实验证明:在不对用户标注的情况下,该模型可准确预测用户的行为类别。2.在流内容维度,提出了多分类器快速内容判别模型。对每一个高速到来的元组,联合多个分类器对其进行综合判别。虽然该方法提高了判别的精度和稳定性,但是判别的速度会严重下降。为此,考虑利用多分类器之间的共享部分来提高判断的速度。具体来说,设计了两种集成模型索引结构(E-Tree和SVM-Index),理论上证明了这两种结构可以达到亚线性(O(logN)和O(1))判别速度。进一步地,在UCI公开数据集上的实验结果验证了预测开销平均可以降至原来的25%和3%左右。3.在整体调度上,提出利用数据挖掘和机器学习的方法来构建自适应的过滤器排序模型。一方面,针对较稳定的数据流环境,基于K-means思想,提出了一种层次化聚类排序模型KHO,来提升过滤器排序算法的鲁棒性;另一方面,针对非平稳数据流环境,基于指数平滑和层次决策的思想,提出了一种自适应的平滑排序模型AHES。以上方法解决了当前数据流过滤器排序算法无法随着数据流上下文环境自适应调节的问题。最后,大量实验结果证明:提出的模型能够表现出较好的性能和环境感知能力。4.基于上述关键技术的研究探索,设计并实现了一个用户行为数据安全管理引擎IceStream,并详细介绍了核心模块的主要功能和设计思路。