论文部分内容阅读
随着硬件成本的降低,数据的存储量以及读写性能都得到很大的提升。同时,随着互联网以及各平台应用用户的不断增加,数据的产生量也在爆炸性的增长。目前大数据相关技术发展迅速,能够处理数据种类逐渐增多,数据结构也变得复杂,很多积累下来的大量数据都得以挖掘分析。本文主要叙述如何管理和计算半结构化的文本数据以及存储在数据库中的结构化数据。本文将所有的数据以文本文件的方式存储在分布式文件系统中,对数据进行冗余存储,这样可以提高数据的计算速度并可以防止数据丢失。本文选用Hadoop的HDFS,使用多台机器建立大数据处理集群,使用Hadoop软件统一进行管理。在使用时提供给操作者一个可视化的web界面。通过封装,用户可以通过界面操作完成整个数据处理的过程,包括数据上传、数据运算,结果查看。数据计算部分主要通过Hadoop的yarn、封装的MapReduce模型,并结合Hive SQL,实现简单的统计分析。运算内容主要为统计分析中常用的操作,如平均值,加权运算,缺失值处理等。运算结果展现部分主要引入百度开源前端组件Echarts,进行简单的配置项封装,可以使用户更加灵活的设置图表相关的配置项。可以将数据运算结果以商业报表(柱形图,饼形图,折线图等)的形式进行展示。本文将从大数据的集群环境,web平台的体系架构,需求分析、概要设计、详细设计等方面进行完整叙述,并展示部分项目核心代码和效果图。最后,将对整个工作及项目进行归纳总结,并指出可以优化的部分以及扩展开发的部分。目前,该项目已和上海联通等知名企业达成合作,运营良好。