论文部分内容阅读
随着计算机应用的普及和网络技术的快速发展,数据的存储量急剧增加,如何有效地利用海量的历史数据分析现状和预测趋势,已经成为各行业面临的关键挑战。解决这一问题的努力促使数据挖掘技术的产生和发展,目前,数据挖掘技术已被广泛运用,它在零售业、金融业、电信业、生物医学及天文学等领域都有很多应用。聚类分析技术作为其重要组成部分,已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类分析中的DBSCAN算法由于具有能在含有噪声的数据空间中发现任意形状的簇的能力,得到了广泛的应用,已经成为数据挖掘研究领域中非常活跃的一个研究课题。云计算是目前国内外研究的热点,它是当前多种高性能的计算模式的发展,是一种通过网络以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。人们可以通过网络在云计算平台上获得可动态扩展的计算和存储能力,具有在降低终端设备要求的同时提高数据处理效率的能力,可以有效地解决处理海量数据时所面临的问题。本论文以实习时参与的项目为基础,分析和研究了云计算技术和海量数据挖掘的相关技术,并重点研究了基于密度的DBSCAN聚类算法。论文针对DBSCAN聚类算法的缺点,结合项目中充电站数据的特点,提出了一种新的算法,这个算法就是基于网格控制因子的DBSCAN聚类算法,它是以项目中所用的固定网格大小的DBSCAN算法为基础的,通过一个叫做网格控制因子的值来微调网格的大小,从而找到一个使聚类精度最好的最佳网格大小。论文用充电站数据证明了其聚类精度得到了有效的改进,同样具有有效降低时间复杂度的优点。本论文要解决的第二个重要问题就是对改进的算法做并行化处理,然后在云计算平台上实现。要对海量数据集进行聚类分析,就必须保证系统能维持在一个稳定、高效的环境。论文设计了基于Hadoop的并行化算法,在搭建了简单的Hadoop环境后,通过在MapReduce框架下对DBSCAN聚类算法进行封装,大大提高了算法的运行效率。最后利用复制的大规模充电站数据对基于云计算的改进算法进行了验证,实验结果表明,基于云计算的DBSCAN算法在不降低DBSCAN聚类质量的前提下,提高了DBSCAN算法处理大规模数据集的效率。