论文部分内容阅读
近年来,随着互联网的发展人们产生的数据越来越多,为了处理并挖掘这些数据的价值,大数据技术得到了飞速的发展与应用。Hive作为构建与大数据基础平台之上的开源数据应用,具有高扩展性、高容错性、模式自由的特性,能很好地满足企业级数据仓库地需求。因此,各个行业已经开始大力建设基于大数据平台的数据仓库,通过其对数据进行采集、处理挖掘出其潜在的价值。本论文以K12在线教育的业务需求为背景,在充分研究企业业务需求的基础上,对基于大数据平台的K12在线教育数据仓库进行了总体的系统架构设计,针对数据处理过程进行了数据流向框架设计及技术选型。通过大数据生态开源组件搭建并部署Hadoop集群,编写Flume、Kafka等程序采集课堂埋点日志,使用Java编程语言在日志Etl清洗、转换、脱敏后接入Hive。将已有地Mysql业务库数据通过Sqoop导入Hive,采用Shell编程语言开发数据一致性校验脚本,对进入数据仓库的数据进行正确性校验。结合K12在线教育企业具体的业务需求采用维度建模,选取星型模式进行数据仓库分层设计与开发,最终完成了数据仓库的设计与实现,并对数据仓库实现的功能进行展示与分析。本论文完成了基于大数据平台K12在线教育数据仓库的设计与实现,提供了标准的报表及看板的展示,满足了各个业务部门的业务需求,通过模型建立支持了数据多维分析,增强了信息处理能力,并且为数据挖掘打下了基础。