论文部分内容阅读
搜索引擎(Search Engine)是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。因而搜索引擎技术成为计算机工业界和学术界争相研究、开发的对象。搜索引擎是对网络上的信息项进行表示、存储、组织和存取。利用搜索引擎能够查找数量庞大的网络信息,并可以迅速查到未知信息。搜索引擎是互联网信息检索技术的核心。目前,Internet上广泛使用的包括中文在内的搜索引擎已不下十几种,比如以Google为首的通用搜索引擎,和各类以行业来划分的垂直式的网络搜索工具。然而,中文搜索引擎与国外的同类产品相比却还存在着很多问题,如覆盖率低、查准率不高、检索精度差、更新速度慢、无法控制网络信息的动态变化、对信息内容难于控制和管理等。本文分析了搜索引擎的历史与现状,针对目前搜索引擎存在的一些弱点,从新兴的Ajax技术出发,用XML数据与Ajax技术相结合,构建基于Ajax的搜索引擎。搜索引擎以高效服务作为重要的衡量标准,在Ajax技术下,搜索引擎不但可以保证服务质量,还能进一步提高搜索引擎的可用性。与传统的搜索引擎一次性“请求-响应”模式不同,基于Ajax技术的异步搜索引擎对服务器的数据请求可以分成多步完成。Ajax引擎先从服务器请求样式表、控制代码及最关键数据并显示在浏览器中,JavaScript在不打断用户操作的情况下,控制XMLHttpRequest对象在后台继续从服务器请求更多数据,并获取目标网页的当前状态,同时负责操作DOM替换页面中的数据部分。用户无需干预和等待就可以继续浏览更丰富的内容,整个过程页面只调整内容显示,而不刷新页面。本文改进了PageRank算法,加入了页面去重处理,使得搜索引擎更加快速。同时,本文通过在网络蜘蛛中加入JS解析器,通过截取Ajax异步请求返回的数据并分析,从而获取更多的页面内容。