基于云计算的粗糙集属性约简的研究

来源 :沈阳师范大学 | 被引量 : 4次 | 上传用户:a63685296
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学工具,已被用于很多方向的研究。例如,规则发现、序列模式发掘、文本数据分析、图像数据分析等。由于粗糙集可在保持分类决策能力不变的前提下,不需要额外提供所处理数据的任何先验信息,就能有效地分析出各种不精确的、不一致的、不完整的等各种不完备信息。粗糙集还可以对数据进行分析和推理,从其中挖掘出隐含在的属性间的依赖关系、重要性、导出简练的决策规则和分类规则。基于粗糙集的属性约简在数据分析处理的相关领域里有着不可磨灭的重要作用,因此关于它的学习和研究渐渐地成为一个全球性的焦点话题。随着大数据时代的脚步渐渐地临近,我们所面临的信息数据越来越丰富,这不仅仅表现在数据量上,还表现在数据维度上。在单机上的数据处理知识挖掘平台已经无法满足大数据时代对大量样本的储存以及处理的工作。云计算相关概念技术的出现为海量异构数据的存储、知识分析挖掘的难题给出了有效的应对方法,分布式处理系统和并行编程框架,是云计算相关理论中重中之重的概念。本文在具体地描述了开源云平台Hadoop和并行编程模型的同时,基于并行编程模型对粗糙集属性约简在云环境下进行分析实现。本文的主要工作如下:基于云平台Hadoop设计了一个数据分析的框架。这个框架采用B/S模式提供了Web页面形式的交互页面,使用者根据自己的要求,来提交相应的样本数据的分析和处理。Server端依据收到的任务,然后生成一系列相应的Hive命令,再之后将生成的Hive命令生成对应一系列Map Reduce任务。Master节点根据相应的命令,对slaver节点产生相应的调度分配,将数据分析处理的任务放到云端执行。最后将分析处理后的结果数据汇总呈现用户。通过样本数的测试和根据对实验结果观察,本文设计的框架对海量异构数据的分析挖掘工作有较高的效率。通过对并行算法的平均时间复杂性的分析,并行编程模型在很多程度上降低了算法的复杂性。通过样本集的逐步变大,对数据集的处理时间变化接近线性变化。为了进一步对本算效率,我们在程序执行过程中使用了Combiner,在本地对map过程的输出做优化降低输出量,进而减少了Reduce过程的输入量。最后利用一些样本集合证明了基于云计算的粗糙集属性约简算法是正确的、高效的。
其他文献
在中文自然语言处理中,命名实体识别(NER)是中文自动分词的一个重要步骤:同时,由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消除、未登录词的识别、实体本身的多
经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率
据调查,我国定量包装商品的需求量很大,单冶金企业每年新增和更换的各类工业计量装置就达约5000台,而其他工业及商业部门也都需要装备数量很大的电子计量装置。面对国内巨大
随着本体和语义网研究的不断发展,构建面向语义网的本体成为了一个引人关注的研究方向。目前,构建面向语义网的本体仍是一件艰难而耗时的工作。因此在本体应用中需要对网络中已
随着军事电子技术,特别是水声对抗技术的发展,对水下目标的探测、跟踪和识别提出了更高要求。传统的主动声呐系统难以满足实际战场的需求,而被动声呐定位系统因其作用距离远,
视频监控已成为现代安全防范系统的重要组成部分,无论是道路交通、仓库厂房、学校围栏、银行安保、公司安检等都采用了视频监控作为防备安全的重要工具。而嵌入在监控系统中
由于互联网络的发展,整个世界正在迅速地融为一体。计算机网络在经济和生活的各个领域正在迅速普及,整个社会对网络的依赖程度越来越大。伴随着网络的发展,也产生了各种各样
信息时代的来临,带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策,是迫切需要解决
随着科技进步和计算机网络技术的发展,越来越多的人融入到了网络,享受着网络带给人们的种种便利。但同时随着互联网规模的迅速扩大,安全问题已经成为一个互联网发展中无法回
结构学习是机器学习中一类重要的学习方法,近年来已得到了人们的广泛关注。本文主要针对结构机器学习的结构表示问题及结构度量问题,从Finsler几何的角度对其展开研究,提出了