基于Storm的大规模日志数据实时多维分析平台设计与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:FlyinginSky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前国内互联网企业单日日志数据增量达到TB级已很常见,大规模日志数据实时多维统计分析对于企业运行管理决策越来越重要。但目前大规模日志数据实时分析处理技术专业性强,不仅需要熟悉多个庞大和复杂的分布式系统,而且不同用户需要根据不同的需求分别编写程序来进行数据的处理,企业中数据处理需求最为急迫的业务部门和运维部门都难有这样的技术能力。本文针对以上问题,设计和实现了取名为飞流的大规模日志数据实时多维统计分析平台。首先飞流通过整合Flume、Kafka、Storm、HBase多个开源系统设计了一个大规模日志数据实时分析基础平台架构,该架构中Flume负责多个日志源数据的收集和聚合,Kafka承担数据剧增时的缓冲工作和保证数据在传输和分析过程中丢失时的恢复工作,Storm进行实时的分布式计算,HBase存储分析的结果提供结果的实时读写和更广泛的使用。然后设计了多维分析理论在互联网企业大规模日志数据统计分析这个新场景的机制,该机制分为四个阶段:数据源接入、多维数据的提取、多维聚合计算和多维聚合结果持久化,数据源接入负责分布式地从Kafka拉取缓存的日志数据,多维数据的提取负责根据用户任务的配置分布式地从日志数据中提取维度数据和度量数据,多维聚合计算是根据任务的配置分布式地分别对各个任务的子任务进行度量计算,多维聚合结果持久化负责将分析结果存储在分布式数据库中。接着设计了热响应机制,该机制分为任务配置层、配置信息持久化层和分布式计算层三层,任务配置层由前端Web UI实现,配置持久化层由MySQL实现,分布式计算层在Storm topology中实现。最后,通过编写Storm topology程序实现了以上两个机制。最终形成了一个统一的互联网企业大规模日志数据多维统计分析平台。用户使用飞流,不需要大数据编程,仅仅需要在Web UI提交配置就能够热提交、热更新和热删除日志数据的多维统计分析任务,并通过Web UI看到图表形式展示的分析结果。为了验证飞流平台,本文在企业实际生产实践中测试了飞流的多维统计分析功能。又通过模拟的大规模日志数据流测试了飞流在分布式计算阶段,即Storm阶段的吞吐量和延迟两个性能指标。实践和实验表明,飞流平台在互联网企业中应用效果较好,满足了业务部门和运维部门的大部分日志数据实时多维统计分析需求。
其他文献
在经济全球化的当下,跨国公司作为作为资本主义国家的垄断企业。其法律地位一直是人们争论的话题,跨国公司作为以本国为基地,通过对外来进行投资,在世界各个地方设立机构或分
【正】 卢梭是西方近代自由思想的集大成者。他那带有辩证色彩的自由观对法国资产阶级革命以及后来的人们都产生了深远的影响。萨特是存在主义在法国及至整个现代西方影响最
本文以北京大学生物信息中心安装的3个国际著名基因组数据库GDB、GenoList和Ensembl为基础,介绍目前常用的基因组数据库,包括这些数据数据库的内容、数据格式、使用方法,以及
脊椎动物骨骼系统起源于中胚层间充质细胞,起初,这些细胞定向分化形成软骨原基,后者经软骨内骨化发育为成熟的骨骼系统.近年来,很多研究表明,WNT家族与其相关作用成分在骨发
期刊
自2001年cdma2000 1x技术商用以来,cdma2000 1x用户数量一直在平稳增长,到2005年第三季度末,用户数已经接近两亿。与此同时,属于2G技术的CDMA用户数却在不断减少。可以看出,cdma20
汽车产业作为国家经济发展的重要支柱产业,代表着国家整体的工业化水平和竞争力水平。加入WTO后,我国汽车产业不断扩大对外开放,并得以快速发展,与此同时,国际竞争力也在逐步
新世纪以来,世界各国从提升教育质量和国民素质、强化本国核心竞争力的战略高度,纷纷开展教育改革,并将改革成果融入人才培养实践。中国实现教育现代化和教育公平的任务也被
3月4日下午,中共中央总书记、国家主席、中央军委主席习近平同志看望参加全国政协十三届二次会议的文化艺术界、社会科学界委员,参加联组会并发表了重要讲话。他强调,新时代
如今各种信息化技术不断渗透到社会的各个角落,尤其是高校院校教育的不断改革和发展,探索新的教学模式对教师教育教学能力提升的作用具有现实意义。本文旨在通过文献收集的分析和整理,结合我院微格教学模式的开展和运行,探讨具有信息化与数字化特征的微格教学模式对中医院校教师教学能力提升的优势和作用。