论文部分内容阅读
本文首先介绍了搜索引擎的发展现状,探讨了末来的发展趋势。在对搜索引擎相关技术进行了阐述之后,对搜索引擎中网页快照技术进行了研究。目前保存于搜索引擎服务器海量缓存中的网页快照在提供给用户更快捷和更方便的访问方式的同时,也将网页中可能的不安全代码一并保存并在用户搜索时一起返回给用户,使计算机在不知不觉中感染病毒。因此,本文对网页快照在实现的同时,进行了安全方面的研究。要实现网页快照的安全性判断,本文尝试采用了人工智能的先进方法——机器学习。利用机器学习中应用较为广泛的示例学习和机械学习相结合,通过建立学习解释器,对网页中的Javascript等脚本语言进行判断,去除不安全代码或者可疑代码。现在网页上的恶意代码越来越多,随之而来的,网页快照上存在不安全代码的可能性也大大增加。为了识别恶意代码,将几种含有常见的恶意代码的程序段的特征关键字作为机器学习的知识库中的示例知识,把网页中Javascript部分的代码分离出来,并将其与知识库中的关键字进行比较判断。本系统的机器学刊通过执行单元将网页的Javascript程序段与知识库进行比较,如果相同或相似则认为是恶意代码,于是就将相似代码通过学习单元将其提取特征码作为新知识存入知识库来提高学习系统的自学习能力,并将其从原来的网页代码中去掉。而对于没有检测到与知识库匹配的代码,认为是安全代码予以保留。这样,将可以进行安全判断的网页快照系统集成至现有的化工专业搜索引擎系统,改进了系统功能,为广大用户提供了更为安全的网页快照。