论文部分内容阅读
粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学工具,已被用于很多方向的研究。例如,规则发现、序列模式发掘、文本数据分析、图像数据分析等。由于粗糙集可在保持分类决策能力不变的前提下,不需要额外提供所处理数据的任何先验信息,就能有效地分析出各种不精确的、不一致的、不完整的等各种不完备信息。粗糙集还可以对数据进行分析和推理,从其中挖掘出隐含在的属性间的依赖关系、重要性、导出简练的决策规则和分类规则。基于粗糙集的属性约简在数据分析处理的相关领域里有着不可磨灭的重要作用,因此关于它的学习和研究渐渐地成为一个全球性的焦点话题。随着大数据时代的脚步渐渐地临近,我们所面临的信息数据越来越丰富,这不仅仅表现在数据量上,还表现在数据维度上。在单机上的数据处理知识挖掘平台已经无法满足大数据时代对大量样本的储存以及处理的工作。云计算相关概念技术的出现为海量异构数据的存储、知识分析挖掘的难题给出了有效的应对方法,分布式处理系统和并行编程框架,是云计算相关理论中重中之重的概念。本文在具体地描述了开源云平台Hadoop和并行编程模型的同时,基于并行编程模型对粗糙集属性约简在云环境下进行分析实现。本文的主要工作如下:基于云平台Hadoop设计了一个数据分析的框架。这个框架采用B/S模式提供了Web页面形式的交互页面,使用者根据自己的要求,来提交相应的样本数据的分析和处理。Server端依据收到的任务,然后生成一系列相应的Hive命令,再之后将生成的Hive命令生成对应一系列Map Reduce任务。Master节点根据相应的命令,对slaver节点产生相应的调度分配,将数据分析处理的任务放到云端执行。最后将分析处理后的结果数据汇总呈现用户。通过样本数的测试和根据对实验结果观察,本文设计的框架对海量异构数据的分析挖掘工作有较高的效率。通过对并行算法的平均时间复杂性的分析,并行编程模型在很多程度上降低了算法的复杂性。通过样本集的逐步变大,对数据集的处理时间变化接近线性变化。为了进一步对本算效率,我们在程序执行过程中使用了Combiner,在本地对map过程的输出做优化降低输出量,进而减少了Reduce过程的输入量。最后利用一些样本集合证明了基于云计算的粗糙集属性约简算法是正确的、高效的。