【摘 要】
:
随着互联网的高速发展,各种网站层出不穷,网页数据也呈现指数级增长。如果可以快速地对网页进行分析并提取出有价值的信息,将其提供给有需要的人群,会是一件十分有意义的事情
论文部分内容阅读
随着互联网的高速发展,各种网站层出不穷,网页数据也呈现指数级增长。如果可以快速地对网页进行分析并提取出有价值的信息,将其提供给有需要的人群,会是一件十分有意义的事情。与此同时,在采集信息的过程中如果能对采集行为进行全程监控和管理,将会有效地降低管理成本并可以提高采集效率。基于上述背景和目的,本文提出了一个互联网Web内容采集系统的设计和实现方案。系统分为网络爬虫后台和爬虫监控系统两个部分,网络爬虫后台可以根据用户自定义的爬取策略爬取数据并提取出有用的内容;监控系统可以对爬虫、用户等相关内容信息进行管理。互联网Web内容采集系统可以为实验室相关项目提供更好的底层数据支持,并为爬虫管理人员提供了一个有效的监管平台。本文基于Akka、Play、Thrift等技术,实现了一个互联网Web内容采集系统。首先,对系统进行了需求分析,并以此制定出总体设计方案。在总体设计中,提出了系统的逻辑架构和物理部署设计方案,将系统分成4个部分,包括爬虫后台、监控系统、交互通信和数据存储,并对每个部分的功能进行了设计。之后,根据总体设计,对每个部分的功能进行实现,并详细介绍了工作原理和实现细节。系统实现后,对系统进行了功能测试和性能测试,对得到的测试结果进行了分析,得出测试结论。最后,对论文所做工作进行了总结,并对系统中不完善的地方提出了改进计划。
其他文献
随着云计算技术的发展,越来越多的企业和个人习惯于使用云服务商提供的方便快捷的数据存储和数据处理服务。然而云计算技术也带来了新的安全隐患,由于数据脱离了用户自己的物
随着云中图像爆炸性增长以及图像分辨率越来越高,如何对群体图像进行压缩编码成为一个严峻的问题。传统的图像压缩使用JPEG、JPEG2000等方法,其主要思想是利用单幅图像的像素
随着科技的飞速发展,技术的不断创新,企业之间的竞争也越来越激烈。呼叫中心可以帮助企业更好地与客户沟通交流,获取第一手的市场信息和售后反馈。近年来,随着计算机通讯技术
作为社会保障体系中十分重要的组成部分,医疗保险不仅起到了稳定经济社会发展的作用,同时也担负起改革“缓冲器”的重任。党的十九大报告中明确指出“提高保障和改善民生水平
API故障定位与传统故障定位主要差异表现在:API故障定位将软件失效点固定在了 API中的输出语句或者返回值语句,而传统的故障定位可以把程序中的每一条语句当作软件失效点。程
近几年来,随着科学技术的发展,图像视频发生了爆发式的增长。随之带来了巨大的存储和管理成本。虽然图像数量巨大,但图像间存在很大的相关性,特别是在相似度较高的图像集中。
随着城市化进程加快,我国城市地铁轨道交通的建设规模逐年增加。由于地铁建设大多处于城市繁华地带,地下管线繁多,周围建筑密集,隧道施工环境复杂、不确定因素众多,地铁隧道施工事故不断发生,造成了巨大的经济损失及人员伤亡,带来了不良的社会影响。因此,开展地铁隧道事故施工风险等级评价研究,对防范施工事故的发生具有现实意义。本文依托武汉某地铁隧道工程项目,分析地铁隧道施工事故风险特征,识别地铁隧道施工事故风险
在当今时代,物联网系统开始普及,进入人们的日常生活。人们在享受物联网服务带来的便利的同时,也因为物联网系统的安全问题承受着极大的风险。传统的物联网系统本地安全保障
软件定义无线网络(Software Defined Wireless Network,SDWN)作为5G移动通信网络发展的关键技术,增加了网络的可管、可控、可扩展性,优化了网络资源的调度,能够为用户提供可
随着信息技术的不断发展,物联网服务在生产生活中的应用越来越广泛。但是,物联网服务在给人们带来极大便利的同时,也存在着巨大的安全隐患。本文在传统入侵检测技术的基础之