云计算环境下大规模文本挖掘并行处理技术研究

来源 :湖南大学 | 被引量 : 3次 | 上传用户：xqiqi

【摘要】

：

随着大数据时代的到来,数据量正以指数级的形式增长,已经达到TB、PB级别,甚至ZB级别,其中很大一部分是文本数据。在文本数据飞速增长的背后,是它们所蕴含的无限价值,文本挖掘

【作者】

：

艾玮

【出处】

：

湖南大学

【发表日期】

：

2017年01期

【关键词】

：

大数据云计算文本挖掘并行处理文本命名实体识别文本聚类并行资源高效管理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,数据量正以指数级的形式增长,已经达到TB、PB级别,甚至ZB级别,其中很大一部分是文本数据。在文本数据飞速增长的背后,是它们所蕴含的无限价值,文本挖掘技术可以帮助人们从文本数据中发现知识、找出规律,从而产生价值。传统的文本挖掘方法不能有效地处理大规模文本数据,尤其是不能满足用户对时效性的要求,而云计算的出现和发展为快速、高效地处理大规模文本数据提供了解决方案。要想充分利用好云计算的并行计算能力和其动态资源的分配能力,从而有效地处理大规模文本数据,云计算环境下的大规模文本挖掘并行处理技术变得至关重要。鉴于此,本文以提高文本挖掘效率并且保持挖掘的准确率为目标,结合文本挖掘技术中的文本聚类和文本命名实体识别,分别从算法并行策略、算法并行与硬件协同策略、具体应用的并行算法设计以及并行资源高效管理四个方面,对云计算环境下的大规模文本挖掘并行处理技术展开研究。本文的主要工作如下:1.在算法并行策略研究方面,针对文本命名实体识别的条件随机场(CRF)模型在处理大规模文本数据时,参数估计周期长、时间效率差的问题,基于Hadoop平台提出了一种称为MapReduce CRF(MRCRF)的并行算法。MRCRF通过结合和并行化LBFGS和Viterbi两个子算法(即MRLB算法和MRVtb算法),来处理CRF中的两个耗时步骤。MRLB算法利用MapReduce框架提高了参数估计能力,MRVtb算法通过另一个MapReduce工作扩展了 Viterbi算法来推断输入序列最可能的状态序列。此外,还为MRCRF设计了一种有效分割数据集的方法来平衡工作负载并最小化数据的复制。实验结果表明,MRCRF算法优于传统CRF模型,在保证准确性的前提下时间效率有了显著的提高。2.在算法并行与硬件协同策略研究方面,为了进一步提高大数据环境下文本命名实体识别的条件随机场(CRF)模型的性能,基于GFlink平台提出了一种CPU+GPU异构环境下的分布式异构CRF(DHCRF)的并行算法。DHCRF算法利用了三阶段的Map和Reduce操作来提高性能,充分发挥了大数据环境中的CPU-GPU协同计算能力。此外,通过组合弹性数据分区和中间结果复用方法,对DHCRF进行了优化。执行弹性数据分区以保持负载平衡,中间结果复用方法减少了数据通信。大量实验结果表明,与在单个机器上实现的基本CRF算法和已有的并行CRF算法相比,DHCRF算法不仅在时间效率上有了明显提高而且还保持了算法识别的准确性。3.在具体应用的并行算法设计研究方面,针对大数据环境下缺乏一种有效的微博热点话题检测方法的问题,基于Spark平台提出了一种两阶段mic-mac热点话题检测(TMHTD)的并行聚类算法。为了提高检测的准确性,提出了三种优化方法来优化TMHTD,优化方法包括:用于微聚类的文本选择,用于宏聚类的话题选择,以及用于single-pass聚类算法的细/粗粒度相似性计算的构造。为了处理大规模文本数据,本文设计了一组MapReduce作业,以高度可扩展的方式完成了热点话题检测。实验结果表明,TMHTD算法在微博热点话题检测的准确性和时间效率方面都优于已有的其它检测方法。4.在并行资源高效管理方面,针对文本挖掘算法在弹性云平台上并行处理时的不确定性带来计算任务的变更,可能需要对资源配置进行频繁更改,而弹性云计算平台尚未能在资源易用性上为用户解决资源配置难题的问题,本文利用云平台的弹性能决定所需的并行计算资源多少和评估云平台的特点,提出了新的弹性测量定义;并且根据文本数据集的特点和文本挖掘过程,提出了一种弹性测量模型。该模型不仅能用于云平台弹性值的精确计算,而且可以根据文本数据集的数量预测出所需要的并行资源的数量及其它性能指标,为用户提供了平台选择与资源配置指导,从而实现对并行资源的高效管理。数值计算结果验证了影响弹性的基本参数,模拟实验和真实环境下的实验结果都验证了所提出的测量模型不仅是正确有效的而且可以作为云平台弹性测量的通用模型。

其他文献

一种高效率低电压3倍负压电荷泵的设计

根据正压电荷泵的理论推导出负压电荷泵的基本单元,得出了低电压供电的2倍负压泵和为提高其效率而采取的一些优化方法.最后在2倍负压泵的基础上给出一个1.5 V工作电压高性能3

期刊

电荷泵3倍负压泵效率

数字传媒时代对编辑规范和人才的要求

数字传媒时代是伴随着互联网的普及开始的。十年来，网络正在悄悄改变着读者的阅读习惯和思维习惯，产生并正在培养着数字传媒时代的阅读文化，它的特点是读者阅读的自主性。它会影

会议

端羟基聚丁二烯的环氧化改性研究进展

详细介绍了端羟基聚丁二烯环氧化改性的新方法。比较了过氧甲酸原位法、过氧乙酸原位法、单过氧邻苯二甲酸原位法等几种方法的优缺点。相对于其他过氧酸原位法，过氧甲酸原位法

期刊

HTPB改性EHTPB环氧化过氧酸原位

构建警务督察工作质量控制体系

目前,警务督察工作方法创新还不能适应形势发展需要,督察机构独立性得不到充分体现,执法环节监督力度不够,问题的发现、查处难度大,影响督察工作质量。构建督察工怍质量控制

期刊

警务督察质量控制体系

基于变异系数法的企业孵化器运行绩效评价

针对企业孵化器运行绩效评价问题,通过建立企业孵化器运行绩效评价指标体系,并应用变异系数法确定评价指标体系的权重,实现了对不同企业孵化器的运行绩效进行综合评价.应用上

期刊

企业孵化器变异系数法绩效评价

聚焦解决模式在脑卒中患者手功能康复中的应用

目的探讨聚焦解决模式在脑卒中患者手功能康复中的应用效果。方法将150例脑卒中患者按入院日期单双号,分为实验组和对照组各75例。对照组应用常规康复治疗及护理,实验组在此

期刊

脑卒中聚焦解决模式手功能康复

零售企业渠道下沉的创新绩效影响因素——基于农村调研分析

本文采取实地调研形式,以360个驻农村企业样本为基础,借助结构方程模型,研究了零售企业渠道下沉农村后,其创新绩效的影响因素。检验结果显示,技术力量、资源储备、人力资本、

期刊

零售企业渠道下沉创新绩效影响因素农村

杭长客运专线引入杭州枢纽施工过渡方案研究

通过分析既有杭州枢纽现状、存在问题，研究了杭州枢纽客运专线引入杭州枢纽客运系统总图规划。针对杭州枢纽沪杭、宁杭杭甬客运专线开通工程现状，结合枢纽总图客运系统规划、客

期刊

客运专线杭州铁路枢纽铁路客站施工过渡

频谱分析仪测量调幅度的方法及利弊

<正>调制指的是将某些低频或基带信号(话音、音乐、数据)转移到较高的频率上。在调制过程中,载波信号的某种特性(通常为幅度或频率)的变化正比于基带信号的瞬时幅度。调幅度

期刊

频谱分析仪不确定度分量均匀分布概率因子微波信号源测试接收机

护士长综合绩效考核在护理质量管理中的应用及效果

目的探讨护士长综合绩效考核在护理质量管理中的作用。方法根据关键绩效指标法和目标管理法,结合医院实际制订护士长综合绩效考核方案,即月岗位绩效考核(包括月基础绩效和月

期刊

护士长绩效考核护理质量

云计算环境下大规模文本挖掘并行处理技术研究

其他学术论文