分布式微博信息采集平台的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：cqz17

【摘要】

：

随着互联网技术、社交网络和移动网络的高速发展，对于海量数据的收集、分析、应用和预测已经成为各个领域的研究热点。目前，对海量数据的采集主要是整个网络范围的采集，比如各种

【作者】

：

范欣欣

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

分布式可用性数据采集数据解析 XQuery模板

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术、社交网络和移动网络的高速发展，对于海量数据的收集、分析、应用和预测已经成为各个领域的研究热点。目前，对海量数据的采集主要是整个网络范围的采集，比如各种搜索引擎，或者是单机模式的采集，这样的数据采集方案没有针对性或者性能较差。因此，分布式的垂直采集方案由此产生。本文设计并实现了基于分布式模型的微博数据采集系统。数据采集采用模拟浏览器登陆后抓取页面以及解析页面的设计方案，考虑到可扩展性，系统架构采用Master/Slave的分布式模型。整个系统包括控制节点和工作节点两大部分。1)控制节点负责任务调度、任务状态检测和爬取数据的存储，其中任务调度模块采用基于优先级的FIFO算法实现，任务状态通过周期性的心跳机制检测，而数据存储采用批量数据存储方案。2)工作节点主要负责任务执行、任务状态汇报和任务申请。任务执行使用HTTPClient工具进行页面数据抓取，然后使用XQuery模板对目标数据进行解析。任务状态汇报基于工作节点周期性地向控制节点汇报本地任务的执行状态信息，便于控制节点对全局的管理。而任务申请模块采用线程池饱和运行策略决定任务申请个数。经过功能测试之后本系统现在已经能够正常稳定运行，在性能方面还有待提升,之后还需要在一些设计和实现方面做出有效调整和改进，使其能够更加稳定高效地工作。

其他文献

视频采集与基于H.264标准编码压缩系统的研究

近年来,数字视频采集和编码压缩系统技术得到了迅速发展和广泛的应用。视频信号采集和压缩系统已经高度集成化和智能化。现在很多的视频采集和压缩系统都是基于CPLD+CPU(DSP

学位

H.264/AVC视频采集视频压缩帧内预测现场可编程门阵列

含噪图像盲复原算法的研究

随着多媒体和计算机技术的迅速发展，数字图像处理技术得到了越来越广泛的应用。数字图像处理包括图像去噪、图像分割、图像压缩等等许多方面，其中图像复原是一个重要的研究的方

学位

高阶统计量图像盲复原算法点扩散函数PSFRadon变换

基于纹理特征的遥感影像分类精度估计

随着遥感技术的发展，人们能更方便的获取更多的遥感影像数据。但是目前遥感影像数据利用率仍较低，其本质原因是遥感数据缺乏有效的数据质量评价方法指导用户选择合适的数据来满

学位

遥感技术影像分类精度估计纹理特征

拟梯度技术及其在群体搜索中的应用

单纯形算法是一种直接搜索优化算法。它不需要目标函数解析，且运算简单，是一种有效的局部搜索方法，在很多领域得到了成功的应用。但是单纯形算法也存在搜索速度不够快、不易收敛

学位

单纯形算法遗传算法粒子群算法拟梯度动态路由

基于ATM的星上交换系统设计与研究

星上处理是卫星通信重要的技术之一，异步传输模式(ATM)是一种重要的星上交换处理模式。论文首先分析和比较了当前用于星上处理的几大关键技术。基于ATM交换，提出了一个基于

学位

星上交换异步传输模式接纳允许控制传输控制协议拥塞控制

交锁髓内钉和外固定架治疗新鲜胫骨干骨折的对比研究

期刊

外科手术患者手术室内SSI相关危险因素及相关对策研究

期刊

基于冗余小波变换的彩色图像水印算法研究

数字水印技术是一种有效的数字产品版权保护和数据安全维护技术，是信息隐藏技术研究领域的一个重要分支。它主要包括水印生成、水印嵌入和水印的提取／检测三方面的内容。本文对

学位

置乱彩色图像半盲水印冗余小波变换奇异值分解

基于多光谱图像的澳元防伪鉴定研究

澳元多光谱图像防伪鉴定技术是纸币防伪领域研究的热点问题，关系到国家的金融安全，有重要的理论研究价值和广泛的应用背景。澳元多光谱图像包含了澳元可见光图像信息、红外光图

学位

多光谱图像澳元防伪灰度共生矩阵支持向量机

IGRS服务会话机制的研究与实现

信息技术的发展，在数字家庭中逐渐形成了三大信息孤岛：以手机为代表的通信设备，以数字电视为代表的信息设备，以及以电脑为代表的网络设备。目前对于如何使这三大信息孤岛无缝的互

学位

IGRS协议服务会话机制信息设备智能互联资源共享协同服务

分布式微博信息采集平台的设计与实现

其他学术论文