论文部分内容阅读
随着大数据时代的到来,数据量正以指数级的形式增长,已经达到TB、PB级别,甚至ZB级别,其中很大一部分是文本数据。在文本数据飞速增长的背后,是它们所蕴含的无限价值,文本挖掘技术可以帮助人们从文本数据中发现知识、找出规律,从而产生价值。传统的文本挖掘方法不能有效地处理大规模文本数据,尤其是不能满足用户对时效性的要求,而云计算的出现和发展为快速、高效地处理大规模文本数据提供了解决方案。要想充分利用好云计算的并行计算能力和其动态资源的分配能力,从而有效地处理大规模文本数据,云计算环境下的大规模文本挖掘并行处理技术变得至关重要。鉴于此,本文以提高文本挖掘效率并且保持挖掘的准确率为目标,结合文本挖掘技术中的文本聚类和文本命名实体识别,分别从算法并行策略、算法并行与硬件协同策略、具体应用的并行算法设计以及并行资源高效管理四个方面,对云计算环境下的大规模文本挖掘并行处理技术展开研究。本文的主要工作如下:1.在算法并行策略研究方面,针对文本命名实体识别的条件随机场(CRF)模型在处理大规模文本数据时,参数估计周期长、时间效率差的问题,基于Hadoop平台提出了一种称为MapReduce CRF(MRCRF)的并行算法。MRCRF通过结合和并行化LBFGS和Viterbi两个子算法(即MRLB算法和MRVtb算法),来处理CRF中的两个耗时步骤。MRLB算法利用MapReduce框架提高了参数估计能力,MRVtb算法通过另一个MapReduce工作扩展了 Viterbi算法来推断输入序列最可能的状态序列。此外,还为MRCRF设计了 一种有效分割数据集的方法来平衡工作负载并最小化数据的复制。实验结果表明,MRCRF算法优于传统CRF模型,在保证准确性的前提下时间效率有了显著的提高。2.在算法并行与硬件协同策略研究方面,为了进一步提高大数据环境下文本命名实体识别的条件随机场(CRF)模型的性能,基于GFlink平台提出了一种CPU+GPU异构环境下的分布式异构CRF(DHCRF)的并行算法。DHCRF算法利用了三阶段的Map和Reduce操作来提高性能,充分发挥了大数据环境中的CPU-GPU协同计算能力。此外,通过组合弹性数据分区和中间结果复用方法,对DHCRF进行了优化。执行弹性数据分区以保持负载平衡,中间结果复用方法减少了数据通信。大量实验结果表明,与在单个机器上实现的基本CRF算法和已有的并行CRF算法相比,DHCRF算法不仅在时间效率上有了明显提高而且还保持了算法识别的准确性。3.在具体应用的并行算法设计研究方面,针对大数据环境下缺乏一种有效的微博热点话题检测方法的问题,基于Spark平台提出了一种两阶段mic-mac热点话题检测(TMHTD)的并行聚类算法。为了提高检测的准确性,提出了三种优化方法来优化TMHTD,优化方法包括:用于微聚类的文本选择,用于宏聚类的话题选择,以及用于single-pass聚类算法的细/粗粒度相似性计算的构造。为了处理大规模文本数据,本文设计了一组MapReduce作业,以高度可扩展的方式完成了热点话题检测。实验结果表明,TMHTD算法在微博热点话题检测的准确性和时间效率方面都优于已有的其它检测方法。4.在并行资源高效管理方面,针对文本挖掘算法在弹性云平台上并行处理时的不确定性带来计算任务的变更,可能需要对资源配置进行频繁更改,而弹性云计算平台尚未能在资源易用性上为用户解决资源配置难题的问题,本文利用云平台的弹性能决定所需的并行计算资源多少和评估云平台的特点,提出了新的弹性测量定义;并且根据文本数据集的特点和文本挖掘过程,提出了一种弹性测量模型。该模型不仅能用于云平台弹性值的精确计算,而且可以根据文本数据集的数量预测出所需要的并行资源的数量及其它性能指标,为用户提供了平台选择与资源配置指导,从而实现对并行资源的高效管理。数值计算结果验证了影响弹性的基本参数,模拟实验和真实环境下的实验结果都验证了所提出的测量模型不仅是正确有效的而且可以作为云平台弹性测量的通用模型。