网络蜘蛛在智能搜索引擎中的设计与实现

来源 :兰州理工大学 | 被引量 : 5次 | 上传用户:senkooqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而网络蜘蛛技术则是搜索引擎的关键。本文围绕网上信息智能搜索这一前沿性研究领域课题,结合智能搜索引擎框架的总体要求,实现了网络蜘蛛在互联网中的漫游,并将网页数据存储在本地数据库中,为以后智能搜索引擎的实现打下了良好的基础。 本文首先从搜索引擎的种类和组成出发,对搜索引擎的内部运行机制进行了了初步的了解,然后详细分析了网络蜘蛛技术实现的功能和搜索的策略。 研究内容主要包含: 首先分析搜索引擎的工作原理,实现搜索引擎工作中的第一步——从互联网上抓取网页。其次详细阐述和分析了JAVA技术,特别是本文实现中所用到的Socket连接、JDBC连接、JAVA数据流(I/O)、BLOB字段处理、线程等技术。 在已有网络蜘蛛软件的基础上,对网络蜘蛛系统进行分析和设计,改进原有基于内存的队列管理方案,改变原系统网页数据存储的方法,结合多线程机制,实现了基于SQL的队列管理和网页数据的SQL存储。 然后,通过在校园网上进行实验,并且读取存储在数据库中的网页数据,验证了该网络蜘蛛的可行性,证明系统已达到了预期的目标。 最后,对本课题下一步的主要工作内容进行系统的总结并做出简单的展望。
其他文献
随着网络的日益普及,网络安全问题日益突出。入侵检测系统是目前网络安全领域的一个研究热点,本文首先从入侵检测的基本概念出发,阐述了入侵检测技术以及入侵检测系统的发展现状
符号定时恢复技术是数字通信中的关键技术.当位同步信号本身有抖动、错位或者是抖动沿线累计就会直接降低通信设备的抗干扰性能,增加误码甚至发生传输中断.因此恢复好位定时
数字视频作为一种重要的信息载体,其应用是十分广泛的.但是,大数据量的视频信息的存储和传输受到硬件技术和网络技术发展现状的制约.为了解决这一问题,有关的国际组织相继制
结合泰兴市黄桥运河的实际情况,开发了水位采集与远程传输系统。该系统使用浮子式传感器、机械式编码器获取水位信号,利用AT89C51单片机系统采集水位数据(简称:下位机系统),采用
扁玉螺(Neverita didyma) (Roeding, 1798)隶属于扁玉螺属(Neverita Risso),乳玉螺亚科(Polinicinae),玉螺科(Naticidae),中腹足目(Mesogastropoda),前鳃亚纲(Prosobranchia),腹足纲(Gastrop
随着分布式计算的普及,中间件作为解决分布式异构问题的关键技术,得到了飞速发展。目前,在各个中间件体系之间进行相互通信已经成为分布式计算中的一个发展趋势,COM和CORBA作为两
本文通过对荣华二采区10
期刊
车载移动终端是车辆监控系统中重要的组成部分,它的设计开发直接影响着整个监控系统的功能实现.该文从市场对车载终端的迫切需要出发,试图利用电子技术和通讯技术的最新发展,
羊草是我国重要牧草之一,研究不同生境条件下羊草种群动态在理论及实践上具有重要意义。本实验采用单位面积取样的方法,从种群水平对扎龙国家级自然保护区不同生境羊草进行研
摘要:化学实验是教学过程中一项重要的学习方法,同时也是帮助学生们正确认识化学、体会化学学习趣味性的关键环节。作为学生们认识物质世界的重要工具,正确开展初中化学实验教学,能够帮助化学教师提高教学质量,同时也有助于学生们在学习化学的过程中,更好的提升动手操作能力、观察能力及思维创新能力等。当前初中化学实验教学中存在着诸多问题,设备不足、教学实验技能欠缺等现象频现,使得化学教学质量较低。有效的开展初中化