基于Spark计算的实时数据分析的应用研究

来源 :青海师范大学 | 被引量 : 2次 | 上传用户:lihuihui1986712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,各式各样的数据呈现出爆炸式增长,海量数据的不断累积对数据的存储与计算提出了更多的要求,各类分布式计算框架和分布式存储模式接连涌现。其中分布式文件存储系统HDFS凭借其较好的实用特性得到了广泛应用;与此同时,Spark计算框架也因为其基于内存计算的高可用性受到了学术界与社会的广泛关注。合理地利用这两种计算框架处理日志数据,并且将日志分析产生的结果利用可视化工具进行展示,是现如今社会亟待解决的问题,为了实现这一目标,就需要制定出对应业务场景中的数据分析解决方案。本文设计和开发基于Hadoop平台的网站日志数据分析系统,其中Hadoop生态系统中的各个组件提供了日志数据的离线分析计算的能力;应用系统釆用Spark Streaming计算框架设计了日志实时计算的应用,采用MapReduce计算框架设计了离线计算应用,前端展示使用当前主流javaEE平台进行设计开发,各种后端开发框架,如SpringMVC等提供了更好的可维护性与可扩展性;同时提供了基于HTML5页面开发的WEB应用功能,使用户可以得到对于分析结果的多维度统计信息;在数据展示方面,采用Echart、Highcharts此类可交互性图表,为解析结果提供了灵活的个性化定制和可视化展现。本文工作主要分为两部分,一部分基于Spark计算的实时数据分析,另一部分是基于Hadoop平台的离线数据分析。论文首先介绍相关知识与关键技术,其次分别介绍实时数据处理与离线数据处理的平台架构设计,应用需求,具体模块实现与可视化设计,最后进行测试环境搭建与测试分析。
其他文献
迄今为止,有关地名的研究只局限于地理学、历史学、民俗学、人类文化学等领域。作者认为,也需要以语言学的视角来积极研究地名中所蕴含的深层含义。因为地名是用语言的形式表
近年来,随着纳米医学的快速发展,将纳米材料技术、表面修饰技术与生物医学技术相结合构建集诊断与治疗为一体的多功能纳米诊疗平台,在肿瘤的精准医疗与临床应用中显示出巨大
单环入渗试验广泛应用于野外测定土壤水力参数。文章在三维非饱和带水分模拟程序VSF基础上,加入了单环入渗水流计算模块,并将改进的VSF与参数优化程序LEVMAR相耦合,构建了适用于
FF(基金会现场总线)能提供大量的设备信息,能将控制功能下放到现场,是对传统工业过程仪表和控制的革新。结合工程设计的需要,文章探讨、总结和分析了FF总线控制系统的设计原
影响消费者购买绿色食品的因素很多,地区差异也是其中之一。所以,以大庆市消费者为研究对象,基于问卷调查结果,来分析影响消费者购买绿色食品的主要因素,不仅有助于了解大庆
为更好地了解、掌握附加疑问句的用法,就附加疑问句的一般规则和特殊规则作了概括和总结。
<正>问题一:什么叫互助保险?——中国农民合作社微信公众号留言答:互助保险亦即相互保险,是国际上主要的保险组织形式之一。根据2015年中国保监会印发的《相互保险组织监管试
翻译是将某种语言所表达的事项或文章转换成另一种语言的创造性活动。翻译是语言和语言的交流,有时以实现不同国家、不同民族之间的沟通和思想交流为目的。不同语言有不同的
<正>孤僻是我们常说的不合群,指不能与人保持正常关系、经常离群索居的心理状态。孤僻的人一般为内向型的性格,除了沉默寡言,表情平淡外,主要表现在喜欢封闭自己的内心,常常
会议
期货市场的一个重要功能就是规避价格风险。套期保值者通过给予一定的补偿把风险转移给那些愿意承担风险的投机者。套期保值的核心问题是最优套期保值比率的确定。通过选取合