可视化网络爬虫发展的开发

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gbbzwklk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上充斥着海量的信息,且在不停地增长。这些信息对不同的个体或业务有价值,有必要将大量的特定信息(数据)抓取下来,然而,这种抓取的工作可能因工作量巨大而难以手工完成。因此,有必要开发特定的工具以完成信息的爬取,这种工具即是网络爬虫工具。目前大多数网络爬虫工具需要使用者至少具备HTML、CSS等Web技术的基本知识和其他信息技术知识,具有较高的使用门槛。本课题设计和开发了一款可视化Web爬虫工具,该工具针对普通用户设计,用户只需掌握正常的网络浏览技能即可使用该工具。该工具的运行仅依赖于浏览器(Google Chrome或其他Chromium系浏览器),不需要额外的软件支撑环境。可视化Web爬虫工具的形态是Google Chrome浏览器插件。本文论述了可视化Web爬虫工具的设计、开发信息,讨论了其力图解决的问题。论文的主要内容是分析普通用户在Web爬取中的需求,提出解决方案,识别Web爬虫工具最重要的功能,解决普通用户使用过程总项目设置复杂等问题。与其他现存爬取方法进行了实验对比,证明了工具的有效性。
其他文献
柔性电子学作为一个新兴的研究领域,引起了人们对如何制造在应变状态下仍维持高性能和耐用性的柔性电子材料这一问题的极大兴趣。随着人体可穿戴设备和植入式电子设备的出现,
本文以实现多智能体控制系统一键仿真和一键编译为目标,底层仿真引擎以MATLAB软件为基础,基于网页浏览器设计了多智能体控制系统仿真功能,该功能目前已经在作者所在的实验室的远程虚拟实验室上部署,并可以稳定、准确地进行仿真实验。本文的主要工作可以分为以下四个方面:1.基于多智能体控制系统仿真时的特点,结合浏览器的特殊性,设计了一种全新的、易于理解的仿真界面。该界面分为主系统界面和子系统界面两层,主系统
蔬菜是人类的日常食品,关系着人类的生存和健康.提高蔬菜产量和品质的重要基础是植物的生长发育.建立有效的植物生长发育模型的研究前景广阔,这不仅可用于模拟和解释植物的生
以往认知心理学认为,学生的学习主要是一种思维活动,导致教学研究只多关注学生的思维操作和思维变化,而忽视了学生身体对思维的作用。具身认知理论的发展为我们重视学生身体在学习中的作用提供了新的视角和基础。随着教育改革的逐步进展,我国关于学生学习的观念已经由知识传递转变为研究型学习、自主合作探究等。杜郎口中学自课堂教学改革以来,形成了“预习-展示-反馈”的课堂教学模式,提倡把课堂还给学生,让学生成为学习的
互联网的快速发展使我们的生活越来越丰富多彩,业务需求也越来越多样化。然而,传统的网络架构已难以满足业务多样化的需求,僵化现象也日益严重。网络虚拟化技术的出现使得僵化现象得到了很好的解决。网络虚拟化技术通过对物理网络资源进行抽象、隔离和分配,使多个虚拟网络可以共享一个或多个物理网络的资源,并且虚拟网络之间互不影响。当大规模灾难导致底层物理网络设备可靠性降低时,物理器件的损毁将造成大量的虚拟网络业务中
核电厂预应力混凝土安全壳是核岛防止核泄漏的最后一道屏障,因此安全壳的完整性和密封性非常重要。我国核电厂安全壳采用有粘结预应力系统,如果运行中发现有个别预应力钢束断
鼠害是历史悠久的全球性重要生物灾害之一,相对于传统的鼠害控制方法,不育控制因其更安全,且更为人道广泛使用,但不育剂在小肠和肝脏代谢损耗较大,若加大用量和使用频次,则会
昼夜节律(~24h)存在于大多数生物体内,并控制其生理过程.一旦昼夜节律异常,将意味着一系列疾病的发生.现在被广泛接受的是转录和翻译时滞在昼夜节律的产生中无处不在.因此,研
钢筋混凝土(Reinforced concrete,简称RC)柱是框架结构的主要抗震构件,对城镇中既有RC柱采用纤维增强复合材料(Fiber reinforced polymer,简称FRP)约束加固能满足抗震需求与安全
近年来,我国对装配式建筑的发展给予高度重视和大力支持。与此同时,钢骨混凝土由于其承载力强、延性好、刚度强等特点被广泛关注和应用。因此本文提出一种新型预制装配式钢骨