云框架下的文本挖掘算法并行化研究

被引量 : 0次 | 上传用户:woai894781693
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的发展,数据规模不断增长,其中主要是以文本的形式存在。如何在有效时间内从大规模文本中挖掘有用信息成为热点研究问题,因此,文本挖掘的并行化研究越来越受到关注。近几年已经有许多基于Map Reduce的文本挖掘算法并行化的实现,能够处理大规模文本,但是仍然存在并行化效率不高、算法实现困难等诸多问题。基于新一代内存大数据处理架构Spark,本文提出新型的大规模文本挖掘并行化算法,主要目的就是在保证文本挖掘精度(有效性)的基础上提高挖掘效率。文本聚类与分类技术是文本挖掘的基础和核心,针对传统文本聚类/分类算法在处理大规模文本时速度缓慢甚至无法处理问题,本文完成了如下几个方面的工作:(1)研究了大规模数据并行处理技术。首先分析了传统并行框架Hadoop的分布式文件系统HDFS和并行计算Map Reduce模型,而后重点研究了新一代并行计算系统Spark的关键技术:弹性分布式数据集RDD以及Spark编程模型。(2)对文本聚类与分类相关技术进行了研究,其中对文本聚类和分类的处理流程进行了详细分析和说明。(3)基于Spark的编程框架,设计了K-Means文本聚类和Naive Bayes文本分类并行化处理算法,对系统进行了优化,与基于Hadoop的实现进行了性能对比。基于集群的实验结果表明,本文提出的基于Spark的文本挖掘并行化算法在保证有效性和准确性的基础上,切实提高了大规模文本挖掘效率,同时算法本身具有高可靠性和易扩展性的优点。与基于Hadoop的实验对比发现,在运行时间、加速比、可扩展性等主要性能指标中都有着更突出的表现,证明了本文工作的有效性.
其他文献
“高山台调频、电视、微波发送设备自动化监控系统”,运用计算机技术、网络技术、数据库技术、现代测试技术、对调频、电视、微波发送设备进行遥测、遥信、遥控。可实现自动
针对目前流行的即时通讯工具在文化共享工程应用中存在的问题,应用AJAX和JAVA技术,实现了一种界面有好、功能完备的基于浏览器的即时通讯工具。结合基于C/S结构的即时通讯工
【目的】探讨猕猴桃园节肢动物群落特征、结构组成及动态规律,为猕猴桃园害虫防治提供依据。【方法】在猕猴桃种植面积较大、产量较高的周至、眉县2县,选择树龄分别为3,9和14
江苏省南通市通州区水利局查处的一起长江非法采砂案,历时9个月,经历了听证、复议、诉讼和上诉等程序得到最终认定。这是江苏省历史上第一个经历如此复杂程序的非法采砂案件,也
从西安霸桥、长安、户县、杨陵、周至、眉县等地采集猕猴桃疫霉病病株,经分离、纯化,结果认为:陕西省猕猴桃疫霉病的病原菌主要为鞭毛菌亚门卵菌纲,疫霉属的恶疫霉菌(Phytophthoracactorum(LebetCohn)Schort.),猕猴桃为该菌
洞庭湖是我国传统的风景名胜区,也是世界上唯一一个由三个国际重要湿地组成的湖泊。作为洞庭湖的最重要组成部分,南洞庭湖国际重要湿地蕴藏着独特的景观文化资源,在长江文明
本文以淄博广电电视发射台的技术改造为例,阐述了技术方案,设备选型思路和方法,介绍了技术要求的定量计算。
我国地方政府体制在改革大潮中取得了许多创新性成就,但也面临着权力运行无序、决策制度短缺、公共治理转型滞后等一系列问题;这些问题既有制度供给不足的原因,也有制度变迁
减震技术一直以来都是运动鞋生物力学研究的主题之一。本文从基本原理、减震措施、规范与标准、发展趋势4个方面介绍了国内外关于运动鞋减震的研究现状及已取得的研究成果,重