基于web的大数据统计处理平台

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hyp88_down
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬件成本的降低,数据的存储量以及读写性能都得到很大的提升。同时,随着互联网以及各平台应用用户的不断增加,数据的产生量也在爆炸性的增长。目前大数据相关技术发展迅速,能够处理数据种类逐渐增多,数据结构也变得复杂,很多积累下来的大量数据都得以挖掘分析。本文主要叙述如何管理和计算半结构化的文本数据以及存储在数据库中的结构化数据。本文将所有的数据以文本文件的方式存储在分布式文件系统中,对数据进行冗余存储,这样可以提高数据的计算速度并可以防止数据丢失。本文选用Hadoop的HDFS,使用多台机器建立大数据处理集群,使用Hadoop软件统一进行管理。在使用时提供给操作者一个可视化的web界面。通过封装,用户可以通过界面操作完成整个数据处理的过程,包括数据上传、数据运算,结果查看。数据计算部分主要通过Hadoop的yarn、封装的MapReduce模型,并结合Hive SQL,实现简单的统计分析。运算内容主要为统计分析中常用的操作,如平均值,加权运算,缺失值处理等。运算结果展现部分主要引入百度开源前端组件Echarts,进行简单的配置项封装,可以使用户更加灵活的设置图表相关的配置项。可以将数据运算结果以商业报表(柱形图,饼形图,折线图等)的形式进行展示。本文将从大数据的集群环境,web平台的体系架构,需求分析、概要设计、详细设计等方面进行完整叙述,并展示部分项目核心代码和效果图。最后,将对整个工作及项目进行归纳总结,并指出可以优化的部分以及扩展开发的部分。目前,该项目已和上海联通等知名企业达成合作,运营良好。
其他文献
【正】行政成本是指政府在实施行政管理过程中消耗的经济资源。伴随着我国深化改革进程的发展,控制行政成本作为行政体制改革的核心要求之一,也成为加强财政支出管理的一项重
论文在明确国内外页岩油勘探开发现状和存在问题基础上,选取渤海湾盆地南部页岩油勘探已取得初步进展的济阳坳陷和东濮凹陷为研究对象,在充分明确构造沉积演化历史及页岩分布
为公民提供公共卫生产品和基本医疗是政府的一项重要职能,对保障公民的身体健康,保证社会发展与稳定有着重要的意义.二十年来的卫生体制改革进展缓慢,效果不佳,"看病难、看病
国际商会制订的《2010年国际贸易术语解释通则》于今年起实施,这是为了适应世界经济一体化和国际贸易的发展。《2010年国际贸易术语解释通则》对《2010年国际贸易术语解释通则
石羊河位于甘肃省河西走廊东部,流域总面积4.16万km~2,水资源总量16.6亿m~3,占河西走廊的22.7%。流域下游史前曾存在古终端湖泊-猪野泽,2万年前最高湖面海拔曾达1317m、水域
一、货币政策目标设置不合理美国《联邦储备法》中规定美国货币政策的目标是"有效促进实现就业最大化,稳定物价和保持适度的长期利率。"其中,物价的稳定主要包括商品、服务和原
目的探讨磁共振成像(MRI)的弥散加权成像(DWI)和表观弥散系数(ADC)值鉴别诊断原发性肝癌的价值。方法选择96例肝局灶性病变患者,其中原发性肝癌41例,肝转移瘤26例,良性病变29
本文介绍了生猪屠宰厂房位置和纵轴线的确定原则;并全面分析生猪屠宰厂房的结构及各类型屠宰厂房特点;最后提出屠宰厂污水处理方案。
<正>统计数据的管理是按项目进行的,例如,人口普查、经济普查、联网直报都分别在相互独立的软硬件系统上进行数据收集与加工,所形成的综合数据也按固定的格式分别离线保存。
期刊