基于云计算的粗糙集属性约简的研究

来源 :沈阳师范大学 | 被引量 : 4次 | 上传用户：a63685296

【摘要】

：

粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学

【作者】

：

李朋

【机构】

：

沈阳师范大学

【出处】

：

沈阳师范大学

【发表日期】

：

2015年01期

【关键词】

：

大数据云计算粗糙集属性约简 MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学工具,已被用于很多方向的研究。例如,规则发现、序列模式发掘、文本数据分析、图像数据分析等。由于粗糙集可在保持分类决策能力不变的前提下,不需要额外提供所处理数据的任何先验信息,就能有效地分析出各种不精确的、不一致的、不完整的等各种不完备信息。粗糙集还可以对数据进行分析和推理,从其中挖掘出隐含在的属性间的依赖关系、重要性、导出简练的决策规则和分类规则。基于粗糙集的属性约简在数据分析处理的相关领域里有着不可磨灭的重要作用,因此关于它的学习和研究渐渐地成为一个全球性的焦点话题。随着大数据时代的脚步渐渐地临近,我们所面临的信息数据越来越丰富,这不仅仅表现在数据量上,还表现在数据维度上。在单机上的数据处理知识挖掘平台已经无法满足大数据时代对大量样本的储存以及处理的工作。云计算相关概念技术的出现为海量异构数据的存储、知识分析挖掘的难题给出了有效的应对方法,分布式处理系统和并行编程框架,是云计算相关理论中重中之重的概念。本文在具体地描述了开源云平台Hadoop和并行编程模型的同时,基于并行编程模型对粗糙集属性约简在云环境下进行分析实现。本文的主要工作如下:基于云平台Hadoop设计了一个数据分析的框架。这个框架采用B/S模式提供了Web页面形式的交互页面,使用者根据自己的要求,来提交相应的样本数据的分析和处理。Server端依据收到的任务,然后生成一系列相应的Hive命令,再之后将生成的Hive命令生成对应一系列Map Reduce任务。Master节点根据相应的命令,对slaver节点产生相应的调度分配,将数据分析处理的任务放到云端执行。最后将分析处理后的结果数据汇总呈现用户。通过样本数的测试和根据对实验结果观察,本文设计的框架对海量异构数据的分析挖掘工作有较高的效率。通过对并行算法的平均时间复杂性的分析,并行编程模型在很多程度上降低了算法的复杂性。通过样本集的逐步变大,对数据集的处理时间变化接近线性变化。为了进一步对本算效率,我们在程序执行过程中使用了Combiner,在本地对map过程的输出做优化降低输出量,进而减少了Reduce过程的输入量。最后利用一些样本集合证明了基于云计算的粗糙集属性约简算法是正确的、高效的。

其他文献

基于Wikipedia的中文命名实体识别研究

在中文自然语言处理中，命名实体识别(NER)是中文自动分词的一个重要步骤：同时，由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消除、未登录词的识别、实体本身的多

学位

命名实体识别自动分词Wikipedia条件随机场Indri

关系强化学习的研究与应用

经过几十年发展,强化学习已得到长足的进步,已成为机器学习、人工智能研究中最活跃的领域之一。在实际问题中,由于状态空间的规模过大以及目前硬件条件的限制,导致算法的效率

学位

关系强化学习一阶谓词逻辑决策树自主驾驶系统

基于FPGA的嵌入式计量系统的研究与设计

据调查,我国定量包装商品的需求量很大,单冶金企业每年新增和更换的各类工业计量装置就达约5000台,而其他工业及商业部门也都需要装备数量很大的电子计量装置。面对国内巨大

学位

双处理器动态计量反馈控制嵌入式系统软核

基于SWRL-Bridge-Peer模型的本体关联方法的研究与实现

随着本体和语义网研究的不断发展，构建面向语义网的本体成为了一个引人关注的研究方向。目前，构建面向语义网的本体仍是一件艰难而耗时的工作。因此在本体应用中需要对网络中已

学位

本体关联方法扩充SWRL规则Bridge-Peer模型

无源定位技术在水下目标跟踪中的应用研究

随着军事电子技术,特别是水声对抗技术的发展,对水下目标的探测、跟踪和识别提出了更高要求。传统的主动声呐系统难以满足实际战场的需求,而被动声呐定位系统因其作用距离远,

学位

无源定位水下机动目标数据关联缓冲算子数据融合

智能监控视频中的目标检测、识别与跟踪算法研究

视频监控已成为现代安全防范系统的重要组成部分,无论是道路交通、仓库厂房、学校围栏、银行安保、公司安检等都采用了视频监控作为防备安全的重要工具。而嵌入在监控系统中

学位

识别跟踪超分割字典场景分析

基于CVE知识库的主机入侵防御系统

由于互联网络的发展,整个世界正在迅速地融为一体。计算机网络在经济和生活的各个领域正在迅速普及,整个社会对网络的依赖程度越来越大。伴随着网络的发展,也产生了各种各样

学位

公共弱点/风险主机入侵防御网络访问控制系统访问控制

连续属性离散化相关研究及应用

信息时代的来临,带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策,是迫切需要解决

学位

数据挖掘连续属性离散化Chi2算法贝叶斯训练集类比例抽取信贷模型

基于蜜罐学习的神经网络入侵检测模型的研究

随着科技进步和计算机网络技术的发展,越来越多的人融入到了网络,享受着网络带给人们的种种便利。但同时随着互联网规模的迅速扩大,安全问题已经成为一个互联网发展中无法回

学位

入侵检测神经网络K-NN算法遗传算法蜜罐

基于Finsler几何的结构学习算法研究

结构学习是机器学习中一类重要的学习方法,近年来已得到了人们的广泛关注。本文主要针对结构机器学习的结构表示问题及结构度量问题,从Finsler几何的角度对其展开研究,提出了

学位

Finsler几何学习Finsler度量学习算法结构学习结构表示结构度量

基于云计算的粗糙集属性约简的研究

其他学术论文