论文部分内容阅读
随着互联网和通讯网的迅猛发展,网络文本已经成为信息的主要载体以及人们生活中不可或缺的主要信息来源。一方面,伴随着Web2.0时代的到来,网络上每天都在持续不断地产生大量的文本数据,并且这个速度远远地超过了人们对信息的利用能力。如何从这些大量的文本资源中获取有价值的信息和知识已经成为了一个亟待解决的重大问题;另一方面,普通的个人计算机由于硬件与软件的瓶颈限制,对于这些规模海量、多源异构、高噪声、强时效的数据根本无法在可承受的时间范围内进行处理分析,并且得到决策者需要的知识。而云计算模式的出现使得高性能的计算资源、软件资源、硬件资源和服务资源得到共享,现在已经成为信息领域的研究热点之一。因此,研究基于分布式平台的大文本集的聚类算法成为当下数据挖掘领域的一个研究热点。在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。