基于WEB挖掘的网络蜘蛛的研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:plumblossommeihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而网络蜘蛛技术则是搜索引擎的关键。本文围绕WEB信息挖掘这一前沿性研究领域课题,结合搜索引擎框架的总体要求,实现了网络蜘蛛在互联网中的漫游,并将网页数据存储在本地数据库中,为以后网页搜索引擎的实现打下了良好的基础。本文首先从搜索引擎的分类和组成出发,对搜索引擎的内部运行机制进行了了初步的了解,然后详细分析了网络蜘蛛技术实现的功能和搜索的策略。最后本文实现了一个网络蜘蛛在网络中的漫游,并能将网页数据存储在本地数据库中。研究内容主要包含:首先分析搜索引擎的工作原理,实现搜索引擎工作中的第一步一从互联网上抓取网页。其次详细阐述和分析了所用到的技术,特别是本文实现中所用到的HTTP协议、正则表达式、多线程和ADO.NET等技术。在已有网络蜘蛛技术的基础上,对网络蜘蛛的系统进行分析和设计,采用广度优先的搜索策略,结合多线程机制,实现了对内网和外网页面的抓取和页面内容分析的算法。本文的创新点在于,首先,把正则表达式技术应用到WEB网页内容提取里面,快速有效地提取网页中的URL,实现了对内网和外网页面的抓取和页面内容分析的算法。最后使用Zlib数据压缩算法对网页数据进行压缩并存入本地数据库。其次,在读取网页信息模块的设计中,为了提高网页获取的速度,采用了一个特殊的错误URL处理策略,即通过服务器的响应时间来取决函数是否返回HTTP页面,把超时的URL放入错误队列,等待错误处理进程的处理。会使蜘蛛根据网络状况来快速处理服务器响应时间快的URL,从而提高蜘蛛的整体速度。然后,通过在校园网上进行实验,并且读取存储在数据库中的网页数据,验证了该网络蜘蛛的可行性,证明系统己达到了预期的目标。最后,对本课题下一步的主要工作内容进行系统的总结并做出简单的展望。
其他文献
随计算机网络技术的飞速发展,借助网络嗅探器进行网络流量监控和网络问题分析已经成为网络管理员不可缺少的工作内容,利用网络嗅探器进行网络攻击也深受广大黑客欢迎。从网络
当今高度复杂的非线性系统中控制算法的研究,一直是控制界研究的热点问题。PID控制与模糊控制是两种较通用的控制算法。针对PID算法中参数整定“跟踪性能与抑制干扰性能不可
基于群集智能的优化算法是一种仿生自然界动物昆虫觅食、筑巢行为的模拟进化算法。目前主要的群集智能优化算法有:遗传算法、蚁群算法、粒子群算法以及鱼群算法。它们均是一种
随着科技的进步和人民生活水平的不断提高,视频监控系统在工业生活、国家安防、日常生活中得到了广泛的应用。视频监控技术融合了计算机、多媒体、通信及网络等多项技术,成为
随着Internet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,如何滤
作为企业经营过程重组与过程自动化的一种手段,工作流技术着眼于协调企业资源、自动化企业业务流程、高效完成企业业务目标。现代化大规模企业,其组织结构、资源架构和业务流程
本文首先回顾了生物识别技术的发展和应用,进而简单阐述了当前应用比较广泛和成熟的指纹识别技术。在国内外广泛研究的基础上,本文围绕指纹识别系统,认真地研究了指纹匹配算
静压传动系统以变量泵和变量马达为主要元件组成闭式液压回路,将机械、液压、电子和先进测控技术应用到驱动系统中,能够对工程机械左右轮独立驱动,可以实现车辆的无级调速和
随着信息化的高速发展,信息安全日益受到重视。如何保证网络数据的保密性、完整性和不可抵赖性已经成为网络安全领域的重要课题。身份认证技术作为系统的第一道防线,具有重要作
随着网络技术与计算机技术的飞速发展,越来越多的多媒体应用出现在了Internet中,例如网上直播、视频会议、远程教育等。对于这类对带宽和延时都有很高要求的应用,组播被认为