论文部分内容阅读
信息技术的飞速发展带来互联网上的数据信息急剧增长,大部分数据以文本信息的形式存在。挖掘网页上的海量文本信息以及快速准确地对这些信息进行分析处理,获取有用的信息,已经成为各大公司组织和个人急待解决的问题。在分布式环境下通过数据挖掘中的文本聚类技术对海量文本数据进行并行处理是解决这一问题的最有效途径之一。文本聚类技术是数据挖掘领域的一个重要的课题,是一种无监督的机器学习方法,其基本思想是首先将文本预处理成计算机可以处理的数据,然后进行文本相似度计算并形成聚类结果。本文通过分析聚类技术的基本原理,总结已经存在的聚类方法中在海量数据处理中的优缺点,并把分布式并行技术引入文本聚类领域,设计并实现了一个基于分布式并行运算的短文本聚类算法。不仅解决了传统聚类算法在处理海量数据方面由于数据的高维和稀疏等方面存在的不足,而且解决了由数据规模过大引起的运行速度慢、效率低的问题。本文的主要工作在于:介绍文本聚类算法的思想和相关理论知识,对当前已经存在的各个分类的聚类算法思想及其代表性算法进行深入分析和研究,并总结出各个分类的聚类算法的优缺点和适用范围;对开源分布式平台Hadoop的基本架构及其关键技术-HDFS分布式文件系统和MapReduce编程模型进行深入研究,并在此基础上设计了一种基于Hadoop分布式平台的分布式并行文本聚类算法;通过实验证明设计的分布式并行文本聚类算法在处理海量的、高维度数据集的可行性。