基于大数据平台的K12在线教育数据仓库设计与实现

来源 :北华航天工业学院 | 被引量 : 1次 | 上传用户:hai_john
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展人们产生的数据越来越多,为了处理并挖掘这些数据的价值,大数据技术得到了飞速的发展与应用。Hive作为构建与大数据基础平台之上的开源数据应用,具有高扩展性、高容错性、模式自由的特性,能很好地满足企业级数据仓库地需求。因此,各个行业已经开始大力建设基于大数据平台的数据仓库,通过其对数据进行采集、处理挖掘出其潜在的价值。本论文以K12在线教育的业务需求为背景,在充分研究企业业务需求的基础上,对基于大数据平台的K12在线教育数据仓库进行了总体的系统架构设计,针对数据处理过程进行了数据流向框架设计及技术选型。通过大数据生态开源组件搭建并部署Hadoop集群,编写Flume、Kafka等程序采集课堂埋点日志,使用Java编程语言在日志Etl清洗、转换、脱敏后接入Hive。将已有地Mysql业务库数据通过Sqoop导入Hive,采用Shell编程语言开发数据一致性校验脚本,对进入数据仓库的数据进行正确性校验。结合K12在线教育企业具体的业务需求采用维度建模,选取星型模式进行数据仓库分层设计与开发,最终完成了数据仓库的设计与实现,并对数据仓库实现的功能进行展示与分析。本论文完成了基于大数据平台K12在线教育数据仓库的设计与实现,提供了标准的报表及看板的展示,满足了各个业务部门的业务需求,通过模型建立支持了数据多维分析,增强了信息处理能力,并且为数据挖掘打下了基础。
其他文献
为了提高审计报告的信息含量,基于国际审计准则的具体要求,我国财政部于2016年12月发布了审计报告的新准则《中国注册会计师审计准则第1504号》,要求注册会计师在审计报告中
CODcr和TOC均是表征水体有机污染程度的指标,对于一般有机废水,理论上两者线性相关。采用线性回归法对冶金钢铁行业废水中TOC和CODcr两项指标的监测数据进行统计分析,建立CODcr
硫和硫的化合物广泛存在于石油中,在对石油及其馏分油进行加工、运输或燃用的过程中,硫化物会对设备造成不同程度的腐蚀,同时会对环境造成严重的影响。因此,对原油进行预脱硫