论文部分内容阅读
互联网每天都会产生海量文本、视频、图像等信息形式,其中文本作为重要的信息载体之一占据着越来越重要的地位。文本数量的激增,导致了严重的文本冗余,文本间关系混杂,使得从大量的文本信息中查找出某类价值信息变得非常困难,在这种背景下产生了文本聚类研究。文本聚类是指将一个文本集合按照一定规则划分成不同的簇,使得在同一簇内的文本描述同一主题,从属不同簇的文本相关性较小的技术。文本聚类技术有非常广泛的应用,如利用文本聚类技术分析微博、聚类同一类型的新闻等。数据量急剧增长的今天,研究大数据量的文本聚类是研究趋势,设计数据处理能力强、准确性高的文本聚类过程变得非常有意义。鉴于研究文本聚类技术的重要性,本文设计基于Hadoop的文本聚类过程,实现提高文本聚类数据处理能力和执行效率的目标。选择AP (Affinity Propagation)算法作为聚类算法,达到提高文本聚类准确性的目标。相比于传统的聚类算法,AP算法有很多优点。同时对算法的实现应用优化策略,提高聚类的执行效率。本文主要贡献点有三个:(1)应用Hadoop平台实现文本聚类过程。将文本聚类流程应用到的技术用MapReduce编程框架实现,达到并行处理文本集合的目的。(2)提出基于词库结合TF-IDF(Term Frequency-Inverse Document Frequency)信息的划分规则对数据集进行划分,减少聚类过程中的通信量,避免不必要的相似度计算。(3)应用AP算法进行聚类,并对执行过程进行优化,减少聚类过程中的网络通信量,提高算法的执行效率。本文实现了完整的文本聚类过程,由实验效果可以发现,并行文本聚类过程非常适合处理大数据量的文本聚类问题。同时对AP算法的研究表明,AP算法虽然通信量较高,但在实现过程中可以通过剪枝优化和一些执行优化策略提高聚类效率,而且它具有很高的聚类准确性。