论文部分内容阅读
Web Robot是一类在网络上自动执行的程序,其种类和数量的增多带来了诸多危害,Web Robot检测成为一个亟待解决的问题。从访问日志中发现Web Robot会话是有效的检测手段,其中,基于规则的检测方法,针对已知的Web Robot,准确率高,但对未知和变化的Web Robot不能检测,且规则库维护困难;流量模式分析和学习分析方法,针对未知和变化的Web Robot,通过统计或学习访问特征进行检测,效果较好,但由于Web Robot本身的访问行为总在变化,而统计或学习算法是静态的,该类方法在适应性和动态性上的表现不够出色。生物免疫系统是一个多层次、自学习的防御系统,能够动态适应外界环境变化,保持机体免疫自稳。计算机免疫系统受生物免疫系统原理和特点的启发而建立,其中克隆选择等算法广泛应用于解决优化、分类等问题。本文借鉴多种免疫机制,应用克隆选择和动态克隆选择算法,提出一个分层的、自适应的WebRobot检测模型,解决自动维护已知Web Robot规则库和自适应动态检测未知Web Robot的问题。主要工作如下:首先,总结Web Robot检测和计算机免疫系统研究现状。分析各类Web Robot检测方法的优缺点,指出Web Robot检测需要解决的关键问题:准确检测已知的Web Robot和动态检测未知变化的Web Robot。分析生物免疫系统的关键机制和计算机免疫系统的特点,解释借鉴免疫机制解决Web Robot检测问题的原因。其次,提出基于免疫机制的Web Robot自适应分层检测模型。模型由基于规则的检测层和学习分析检测层组成,监督反馈机制作用于这两层。在基于规则的检测层,通过维护一个规则库检测已知的WebRobot;在学习分析层,先改进克隆选择算法,在亲和力计算中增加惩罚因子,对特征集合进行组合优化,再改进动态克隆选择算法,包括增加未成熟检测器来源,对成熟检测器执行克隆变异,对失效检测器进行受体编辑,生成具有多样性的检测器,应用其检测未知和变化的Web Robot;监督反馈机制的作用是,通过观察Web Robot被检出的次数自动更新规则库、通过分析检测器的检测变化率动态更新检测器集合。最后,本文以武汉大学本科教务管理系统为应用环境,通过实验验证模型关键部分的有效性,包括基于规则检测层的准确性、自动更新规则库的可行性、特征组合优化的必要性和检测器的性能,表明了模型在准确率和自适应方面的优势。