基于Storm的大规模日志数据实时多维分析平台设计与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户：FlyinginSky

【摘要】

：

目前国内互联网企业单日日志数据增量达到TB级已很常见,大规模日志数据实时多维统计分析对于企业运行管理决策越来越重要。但目前大规模日志数据实时分析处理技术专业性强,不

【作者】

：

赵宏博

【出处】

：

北京工业大学

【发表日期】

：

2017年01期

【关键词】

：

Storm 大规模日志数据实时统计分析多维统计分析通用平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前国内互联网企业单日日志数据增量达到TB级已很常见,大规模日志数据实时多维统计分析对于企业运行管理决策越来越重要。但目前大规模日志数据实时分析处理技术专业性强,不仅需要熟悉多个庞大和复杂的分布式系统,而且不同用户需要根据不同的需求分别编写程序来进行数据的处理,企业中数据处理需求最为急迫的业务部门和运维部门都难有这样的技术能力。本文针对以上问题,设计和实现了取名为飞流的大规模日志数据实时多维统计分析平台。首先飞流通过整合Flume、Kafka、Storm、HBase多个开源系统设计了一个大规模日志数据实时分析基础平台架构,该架构中Flume负责多个日志源数据的收集和聚合,Kafka承担数据剧增时的缓冲工作和保证数据在传输和分析过程中丢失时的恢复工作,Storm进行实时的分布式计算,HBase存储分析的结果提供结果的实时读写和更广泛的使用。然后设计了多维分析理论在互联网企业大规模日志数据统计分析这个新场景的机制,该机制分为四个阶段:数据源接入、多维数据的提取、多维聚合计算和多维聚合结果持久化,数据源接入负责分布式地从Kafka拉取缓存的日志数据,多维数据的提取负责根据用户任务的配置分布式地从日志数据中提取维度数据和度量数据,多维聚合计算是根据任务的配置分布式地分别对各个任务的子任务进行度量计算,多维聚合结果持久化负责将分析结果存储在分布式数据库中。接着设计了热响应机制,该机制分为任务配置层、配置信息持久化层和分布式计算层三层,任务配置层由前端Web UI实现,配置持久化层由MySQL实现,分布式计算层在Storm topology中实现。最后,通过编写Storm topology程序实现了以上两个机制。最终形成了一个统一的互联网企业大规模日志数据多维统计分析平台。用户使用飞流,不需要大数据编程,仅仅需要在Web UI提交配置就能够热提交、热更新和热删除日志数据的多维统计分析任务,并通过Web UI看到图表形式展示的分析结果。为了验证飞流平台,本文在企业实际生产实践中测试了飞流的多维统计分析功能。又通过模拟的大规模日志数据流测试了飞流在分布式计算阶段,即Storm阶段的吞吐量和延迟两个性能指标。实践和实验表明,飞流平台在互联网企业中应用效果较好,满足了业务部门和运维部门的大部分日志数据实时多维统计分析需求。

其他文献

论跨国公司的法律地位

在经济全球化的当下,跨国公司作为作为资本主义国家的垄断企业。其法律地位一直是人们争论的话题,跨国公司作为以本国为基地,通过对外来进行投资,在世界各个地方设立机构或分

期刊

跨国公司国内法国际法法律地位

卢梭自由观与萨物自由观比较

【正】卢梭是西方近代自由思想的集大成者。他那带有辩证色彩的自由观对法国资产阶级革命以及后来的人们都产生了深远的影响。萨特是存在主义在法国及至整个现代西方影响最

期刊

自由观卢梭个性解放存在主义人的自由自由哲学自然状态资本主义《忏悔录》契约国家

基因组数据库简介

本文以北京大学生物信息中心安装的3个国际著名基因组数据库GDB、GenoList和Ensembl为基础,介绍目前常用的基因组数据库,包括这些数据数据库的内容、数据格式、使用方法,以及

期刊

微生物基因组人类基因组数据库系统生物信息microbe geneome human genome database system

WNT家族在脊椎动物骨骼发育中的作用机制

脊椎动物骨骼系统起源于中胚层间充质细胞,起初,这些细胞定向分化形成软骨原基,后者经软骨内骨化发育为成熟的骨骼系统.近年来,很多研究表明,WNT家族与其相关作用成分在骨发

期刊

WNT骨发生间充质细胞软骨细胞分化WNT skeleton development mesenchymal cell chondrocyte differ

Zarlink推出从企业到核心应用的线路卡时钟解决方案

期刊

cdma2000开始新一轮的技术更新

自2001年cdma2000 1x技术商用以来，cdma2000 1x用户数量一直在平稳增长，到2005年第三季度末，用户数已经接近两亿。与此同时，属于2G技术的CDMA用户数却在不断减少。可以看出，cdma20

期刊

CDMA2000技术更新用户数量1x技术CDMA转换过程2G商用3G

对外开放对我国汽车产业国际竞争力的影响研究

汽车产业作为国家经济发展的重要支柱产业,代表着国家整体的工业化水平和竞争力水平。加入WTO后,我国汽车产业不断扩大对外开放,并得以快速发展,与此同时,国际竞争力也在逐步

学位

汽车产业对外开放国际竞争力面板模型

教育公平的国际比较及其影响因素探索

新世纪以来,世界各国从提升教育质量和国民素质、强化本国核心竞争力的战略高度,纷纷开展教育改革,并将改革成果融入人才培养实践。中国实现教育现代化和教育公平的任务也被

学位

PISA项目教育公平影响因素多元逻辑回归

坚定文化自信、把握时代脉搏、聆听时代声音

3月4日下午,中共中央总书记、国家主席、中央军委主席习近平同志看望参加全国政协十三届二次会议的文化艺术界、社会科学界委员,参加联组会并发表了重要讲话。他强调,新时代

期刊

文艺创作哲学社会科学习近平同志时代脉搏文化自信

论信息化与数字化特征的微格教学模式———与中医院校教师教学能力提升

如今各种信息化技术不断渗透到社会的各个角落,尤其是高校院校教育的不断改革和发展,探索新的教学模式对教师教育教学能力提升的作用具有现实意义。本文旨在通过文献收集的分析和整理,结合我院微格教学模式的开展和运行,探讨具有信息化与数字化特征的微格教学模式对中医院校教师教学能力提升的优势和作用。

期刊

信息化数字化微格教学教师教学能力information technologydigitizationmicroteachingteaching abil

基于Storm的大规模日志数据实时多维分析平台设计与实现

与本文相关的学术论文