论文部分内容阅读
近年来,随着互联网技术快速发展及其普及范围不断扩大,互联网已经逐渐深入到人们的日常生活之中,并成为人们学习和工作生活中的重要组成部分。然而,由于互联网采用自由、开放式的组织结构,随着人们在网络上活动的日益频繁,网络上的信息也日益复杂起来,一些暴力、色情甚至反动等非法信息开始在互联网上传播。这些不良信息,特别是那些事关国家安全以及社会稳定的敏感信息地传播对社会危害极大,因此,如何从大量的网络信息中监测和识别这类信息成为互联网安全领域的一个重要研究课题。目前该领域内很多研究都集中在网关、端口和用户客户端信息地过滤与屏蔽上,其中基于用户客户端信息地过滤与屏蔽对Web信息地监测效果并不理想,而基于网关和端口的信息监测手段通常需要使用端口镜像或分光器,其截取的数据量巨大,对监测系统软硬件需求较高,系统规模和开销都比较大,因而需要一种轻型、高效的信息监测系统。因此,本文研究并提出一种基于主题策略的Web信息检测系统,本文主要工作和成果如下:①通过对Web页面及网络爬行技术地研究,提出一种基于主题策略的Web信息监测系统模型。该模型以主题爬行技术为基础,结合在实际工作中对Web信息监测系统具体使用需求地研究与分析,给出主题策略Web信息检测系统的基本结构。②根据系统研究的需要,通过对主题网络爬行算法地研究与分析,提出一种启发式主题爬行算法,以此算法作为本文监测系统的基础与核心。该算法根据常用主题爬行策略的特点,通过页面辐射空间地引入将主题策略中基于链接分析和基于内容分析的方法相结合,并嵌入启发式算法,从而提出一种基于启发式的主题爬行算法。实验结果表明,该算法较常用爬行算法有较好的爬行效率。③为将研究成果与实践应用相结合,本文研究实现了基于主题策略Web信息监测系统的原型系统并通过校园网实际部署应用进行实验研究与验证,其结果证明本系统可以有效发现所部署的网络环境中包含特定主题的页面,并且可以长时间稳定运行。最后,本文对所做工作进行了总结并对未来工作进行了展望。