论文部分内容阅读
随着网络技术的快速发展以及网络服务的不断普及,网民对于网络的依赖性逐渐加强。网络技术的发展也导致各类特定网站的出现,使得网民的经济财产受到损失。特定网站是指含有对社会稳定、个体信息与隐私安全造成威胁的信息的网站,特定网站大多分布于境外,具有增长速度快、传播途径多的特点。对于这些特定网站信息用被动发现是远远不够的,研究特定网站主动发现技术成为亟待解决的问题,因此,本文以此为重点,查阅相关文献,对特定网站主动发现技术进行了深入研究,提出了一种基于主动发现技术的特定网站探测和验证系统。论文针对主动发现覆盖广度以及准确度问题,运用元搜索发现技术、垂直搜索跟踪技术提出了一种基于用户白名单以及关键字的主动发现技术,系统将通过元搜索技术,利用搜索引擎模板,对白名单网站和关键字进行处理,将关键字范围扩大,对新生成的关键字通过垂直搜索进行专项跟踪,利用专项搜索模板发现可疑的特定网站URL。针对主动发现技术提取的可疑URL,系统利用基于页面Title比对与基于页面结构比对验证技术进行网页验证。论文通过页面Title及结构提取将网页特征提取出来,页面Title通过Title校验字符串切割提取出Title关键字进行比对,系统通过页面结构生成DOM树,通过DOM节点筛选算法提取出页面VTree,利用页面结构比对算法计算出最终的结果。系统测试表明各模块均能正常运行,并且各算法均能达到相应指标,平均每天发现可疑特定网站883条,平均通过验证确定特定网站57条,误报率漏报率均不超过15%。