论文部分内容阅读
如今,随着网络技术、移动互联网技术、社交网络、传感器技术的快速发展,产生了许多能够快速生成、传播数据的智能终端。这些终端正在以惊人的速度产生大量的数据,这其中有超过80%的数据是非结构化数据,且在不断地增加,并且需要长时间存储,而且非热点数据也可能会被访问。这种情况与传统的、基于关系型数据库的核心数据存储方式有显著的差异。这种差异使得传统的数据存储和管理解决方案无法胜任“大数据”时代的分析、管理和挖掘的任务。另外,大数据时代的数据每时每刻都在快速增长,传统的数据挖掘解决方案已经无法适应这种近乎无限扩张数据集的分析任务。大数据时代的核心问题就是通过数据挖掘技术筛选冶炼大数据矿山中的贵金属。借助云计算的形式对这些数据进行筛选处理分析及提取有用的信息,已经成为数据挖掘领域重要的研究方向。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统分类聚类算法的特点给出了一种基于云计算的数据挖掘系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文的具体内容包括:1.针对HDFS NameNode、MapReduce JobTracker单节点故障以及HDFS文件访问的安全等缺陷,深入研究Hadoop生态系统中的主要组件,提出了合适的解决方案。并基于此搭建了高可靠安全的Hadoop集群。2.针对大数据分析技术的特点,研究了传统数据挖掘系统的特性,提出了基于Hadoop数据挖掘平台的技术架构。3.设计并实现了基于Hadoop勺分类算法,主要包括Naive Bayes、SVM,并且进行了相关实验;主要从算法的效率及扩展性方面进行了对比分析4.设计并实现了基于Hadoop的聚类算法,主要包括K-Meas、Canopy,并行进行了相关的实现;主要从算法的效率及扩展性方面进行了对比分析。