论文部分内容阅读
随着信息社会的发展,数据规模不断增长,其中主要是以文本的形式存在。如何在有效时间内从大规模文本中挖掘有用信息成为热点研究问题,因此,文本挖掘的并行化研究越来越受到关注。近几年已经有许多基于Map Reduce的文本挖掘算法并行化的实现,能够处理大规模文本,但是仍然存在并行化效率不高、算法实现困难等诸多问题。基于新一代内存大数据处理架构Spark,本文提出新型的大规模文本挖掘并行化算法,主要目的就是在保证文本挖掘精度(有效性)的基础上提高挖掘效率。文本聚类与分类技术是文本挖掘的基础和核心,针对传统文本聚类/分类算法在处理大规模文本时速度缓慢甚至无法处理问题,本文完成了如下几个方面的工作:(1)研究了大规模数据并行处理技术。首先分析了传统并行框架Hadoop的分布式文件系统HDFS和并行计算Map Reduce模型,而后重点研究了新一代并行计算系统Spark的关键技术:弹性分布式数据集RDD以及Spark编程模型。(2)对文本聚类与分类相关技术进行了研究,其中对文本聚类和分类的处理流程进行了详细分析和说明。(3)基于Spark的编程框架,设计了K-Means文本聚类和Naive Bayes文本分类并行化处理算法,对系统进行了优化,与基于Hadoop的实现进行了性能对比。基于集群的实验结果表明,本文提出的基于Spark的文本挖掘并行化算法在保证有效性和准确性的基础上,切实提高了大规模文本挖掘效率,同时算法本身具有高可靠性和易扩展性的优点。与基于Hadoop的实验对比发现,在运行时间、加速比、可扩展性等主要性能指标中都有着更突出的表现,证明了本文工作的有效性.