基于用户行为挖掘的数据流管理技术研究

被引量 : 7次 | 上传用户:hayyangxiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益增长的网络安全威胁促使各种安全防御机制应运而生,这些安全机制大都需要分析网络数据流,以发现违规行为和有害信息。当前的数据流安全管理主要基于关键字分析,未全面考虑关键字所在的网络上下文环境信息,比如关键字所在网页的内容语义和浏览该页面的网络用户类别信息。为此,本文从影响数据流安全管理的用户行为、内容分析和管理调度三个方面开展研究,主要贡献为:1.在用户维度,提出一种用户行为预测模型,该模型使得数据流安全管理系统可以针对用户类别实行差别化管理。具体来说,该模型通过收集网络用户的网页点击行为数据和搜索行为数据,构造一个关联用户行为和用户类别的预测模型。对比于以往的用户行为分析方法,该模型有以下创新:(i)构建全而的行为类别体系和行为特征空间,借鉴概率潜在语义分析思想,提出了一种用户潜在行为倾向发现方法来挖掘“用户-行为”共现中的倾向语义;(ii)该模型结合安全管理的应用背景,发现倾向的描述能力较弱,设计了一种“倾向-类别”映射关系学习算法,同时对该学习算法的信息转换等价性进行了理论分析;(iii)针对预测结果,设计了相应的度量指标和评估办法,实验证明:在不对用户标注的情况下,该模型可准确预测用户的行为类别。2.在流内容维度,提出了多分类器快速内容判别模型。对每一个高速到来的元组,联合多个分类器对其进行综合判别。虽然该方法提高了判别的精度和稳定性,但是判别的速度会严重下降。为此,考虑利用多分类器之间的共享部分来提高判断的速度。具体来说,设计了两种集成模型索引结构(E-Tree和SVM-Index),理论上证明了这两种结构可以达到亚线性(O(logN)和O(1))判别速度。进一步地,在UCI公开数据集上的实验结果验证了预测开销平均可以降至原来的25%和3%左右。3.在整体调度上,提出利用数据挖掘和机器学习的方法来构建自适应的过滤器排序模型。一方面,针对较稳定的数据流环境,基于K-means思想,提出了一种层次化聚类排序模型KHO,来提升过滤器排序算法的鲁棒性;另一方面,针对非平稳数据流环境,基于指数平滑和层次决策的思想,提出了一种自适应的平滑排序模型AHES。以上方法解决了当前数据流过滤器排序算法无法随着数据流上下文环境自适应调节的问题。最后,大量实验结果证明:提出的模型能够表现出较好的性能和环境感知能力。4.基于上述关键技术的研究探索,设计并实现了一个用户行为数据安全管理引擎IceStream,并详细介绍了核心模块的主要功能和设计思路。
其他文献
<正> 李××,女,37岁。1987年4月5日诊。患者3个月前始感尿频、尿急,左侧腰部胀痛,腰膝酸软,尿道灼热刺痛,小便黄赤而少,伴见头昏,五心烦热,耳鸣,骨蒸消瘦,口苦咽干,夜间尤著
描述了一个用于多层电缆偏心度在线测控技术的原理、结构及数据处理方法,给出了实验测量结果,测量精度为0.025mm.
大学英语实行的“满堂灌”、“填鸭式”的单一陈旧的教学模式,对于身处知识经济时代的大学生早就失去了吸引力。在《大学英语课程教学基本要求》精神指导下,结合具体的教学实践
<正>中药资源是自然资源的一部分,包括植物药资源、动物药资源和矿物药资源,除矿物药资源外均属于生物资源的范畴。中药资源是中医药的物质基础,近年来世界范围内"回归自然"
雷电脉冲对移动通信基站的影响是当前雷电防护技术领域的研究热点问题。由于需要收发无线通信信号,移动通信基站往往建于空旷或地势较高的地区。这就使得基站铁塔容易遭受雷
贫困是当今全世界关注的重大社会经济问题,消除贫困是全人类的共同目标。中国政府为实现消除贫困这一世界性课题,积极寻求各种扶贫途径。旅游业作为快速拉动经济增长的有效途径
对营销渠道比较通俗的定义是指产品从制造商手中传至消费者手中所经过的由中间商结合起来的一种通路,也称为分销渠道。任何一个产品制造企业都需要建立与自身未能相适应的营
目的比较TIMI危险评分与GRACE评分在非ST段抬高型急性冠脉综合征(NSTE-ACS)青年患者危险分层及预后评估的临床价值。方法回顾性分析2010年5月~2012年5月在中国人民解放军总医
本文通过对文本类型的界定,提出音乐宣传文本的概念,指出音乐宣传文本归化翻译的可行性和合理性。本文试图通过这样的界定来明析音乐宣传文本的文本特点和翻译处理此类文本时应
艺术教育作为素质教育的重要组成部分,在丰富校园文化建设、培养学生的艺术鉴赏能力和审美情趣等方面发挥了重要作用。对于工科院校中的艺术系科,其作用尤为明显。因此,加强