论文部分内容阅读
搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而网络蜘蛛技术则是搜索引擎的关键。本文围绕网上信息智能搜索这一前沿性研究领域课题,结合智能搜索引擎框架的总体要求,实现了网络蜘蛛在互联网中的漫游,并将网页数据存储在本地数据库中,为以后智能搜索引擎的实现打下了良好的基础。 本文首先从搜索引擎的种类和组成出发,对搜索引擎的内部运行机制进行了了初步的了解,然后详细分析了网络蜘蛛技术实现的功能和搜索的策略。 研究内容主要包含: 首先分析搜索引擎的工作原理,实现搜索引擎工作中的第一步——从互联网上抓取网页。其次详细阐述和分析了JAVA技术,特别是本文实现中所用到的Socket连接、JDBC连接、JAVA数据流(I/O)、BLOB字段处理、线程等技术。 在已有网络蜘蛛软件的基础上,对网络蜘蛛系统进行分析和设计,改进原有基于内存的队列管理方案,改变原系统网页数据存储的方法,结合多线程机制,实现了基于SQL的队列管理和网页数据的SQL存储。 然后,通过在校园网上进行实验,并且读取存储在数据库中的网页数据,验证了该网络蜘蛛的可行性,证明系统已达到了预期的目标。 最后,对本课题下一步的主要工作内容进行系统的总结并做出简单的展望。