分布式微博信息采集平台的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cqz17
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术、社交网络和移动网络的高速发展,对于海量数据的收集、分析、应用和预测已经成为各个领域的研究热点。目前,对海量数据的采集主要是整个网络范围的采集,比如各种搜索引擎,或者是单机模式的采集,这样的数据采集方案没有针对性或者性能较差。因此,分布式的垂直采集方案由此产生。本文设计并实现了基于分布式模型的微博数据采集系统。数据采集采用模拟浏览器登陆后抓取页面以及解析页面的设计方案,考虑到可扩展性,系统架构采用Master/Slave的分布式模型。整个系统包括控制节点和工作节点两大部分。1)控制节点负责任务调度、任务状态检测和爬取数据的存储,其中任务调度模块采用基于优先级的FIFO算法实现,任务状态通过周期性的心跳机制检测,而数据存储采用批量数据存储方案。2)工作节点主要负责任务执行、任务状态汇报和任务申请。任务执行使用HTTPClient工具进行页面数据抓取,然后使用XQuery模板对目标数据进行解析。任务状态汇报基于工作节点周期性地向控制节点汇报本地任务的执行状态信息,便于控制节点对全局的管理。而任务申请模块采用线程池饱和运行策略决定任务申请个数。经过功能测试之后本系统现在已经能够正常稳定运行,在性能方面还有待提升,之后还需要在一些设计和实现方面做出有效调整和改进,使其能够更加稳定高效地工作。
其他文献
近年来,数字视频采集和编码压缩系统技术得到了迅速发展和广泛的应用。视频信号采集和压缩系统已经高度集成化和智能化。现在很多的视频采集和压缩系统都是基于CPLD+CPU(DSP
随着多媒体和计算机技术的迅速发展,数字图像处理技术得到了越来越广泛的应用。数字图像处理包括图像去噪、图像分割、图像压缩等等许多方面,其中图像复原是一个重要的研究的方
随着遥感技术的发展,人们能更方便的获取更多的遥感影像数据。但是目前遥感影像数据利用率仍较低,其本质原因是遥感数据缺乏有效的数据质量评价方法指导用户选择合适的数据来满
单纯形算法是一种直接搜索优化算法。它不需要目标函数解析,且运算简单,是一种有效的局部搜索方法,在很多领域得到了成功的应用。但是单纯形算法也存在搜索速度不够快、不易收敛
星上处理是卫星通信重要的技术之一,异步传输模式(ATM)是一种重要的星上交换处理模式。 论文首先分析和比较了当前用于星上处理的几大关键技术。基于ATM交换,提出了一个基于
期刊
期刊
数字水印技术是一种有效的数字产品版权保护和数据安全维护技术,是信息隐藏技术研究领域的一个重要分支。它主要包括水印生成、水印嵌入和水印的提取/检测三方面的内容。本文对
澳元多光谱图像防伪鉴定技术是纸币防伪领域研究的热点问题,关系到国家的金融安全,有重要的理论研究价值和广泛的应用背景。澳元多光谱图像包含了澳元可见光图像信息、红外光图
信息技术的发展,在数字家庭中逐渐形成了三大信息孤岛:以手机为代表的通信设备,以数字电视为代表的信息设备,以及以电脑为代表的网络设备。目前对于如何使这三大信息孤岛无缝的互