MapReduce框架下并行知识约简算法模型研究

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:myulyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。
其他文献
判别近邻嵌入算法(discriminant neighborhood embedding,DNE)通过构造邻接图,使得在投影子空间中能够保持原始数据的局部结构,能有效地发现最佳判别方向。但是它有两方面的不足:一方面不能标识样本点的近邻样本点位置信息,从而不能更好地保持邻域结构;另一方面当数据不均衡时,不能实现子空间中类内聚合或者类间分离的目的,这不利于分类。为此提出了一种新的有监督子空间学习算法—
给出了点态化(∈,∈∨q(λ,μ))-模糊滤子和广义模糊滤子的概念,讨论了两者之间的等价关系;得到了(∈,∈∨q(λ,μ))-模糊滤子的若干等价刻画,并研究了其相关性质;讨论了(∈,∈∨q(λ,μ))-模
钻孔灌注桩基础是桥梁基础的一种主要形式,在公路、铁路等国民基建行业得到广泛应用。文章详细分析和论述桥梁桩基施工过程中的施工工艺及质量控制方法,并提出预防措施。
CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数
当你在不同时间、不同地点遇到同一个朋友时,你会在记忆中把二者联系在一起。虽然这是很常见的记忆现象,但要解释它还很困难。据美国物理学家组织网近日报道,最近,宾夕法尼亚大学利用一种记忆试验,首次为“精神时间旅行”提供了神经生物学上的证据,说明了相同背景下的记忆是如何联系起来的,这也是情景记忆的基础。研究结果发表在《美国国家科学院院刊》上。  大脑思考过去、现在和未来时的精神体验叫做“精神时间旅行”,也
5月12日,以“水资源与现代农业”为主题的第二届辽宁现代农业发展论坛在沈阳市举行。辽宁省副省长赵化明出席论坛开幕式并讲话,辽宁省科协党组书记、副主席康捷主持开幕式。  论坛上,来自省内外的130多位农业与水利方面的院士专家齐聚一堂,就现代农业发展中的水利建设、节水灌溉和水资源综合利用等方面的科技问题展开研讨,为辽宁省现代农业发展建言献策。  水资源是影响农业生产的重要因素,参加论坛的院士专家认为,
近日,江西省科协与有关省级学会开展推选“江西省科普大使”活动。推选“江西省科普大使”,旨在扎实推进全民科学素质工作,大力实施“科普大使与示范社区创建点对接工程”,深入开展科教进社区、全民健康科技行动、社区科普大讲堂等科普活动,进一步充实“江西省科普大使”隊伍。  此次推选的“江西省科普大使”人选,要求符合:拥护党的路线、方针、政策;热心社区科普事业,具有奉献精神;具有中高级专业技术职称,实践经验丰
程序运行过程中一些不再被使用的对象未及时释放会引发内存泄漏问题,泄漏对象经过长期累积会降低系统性能,甚至导致系统崩溃。针对Java程序中的内存泄漏问题,提出了一种内存泄漏
目的探讨颅咽管瘤患者术后血糖及尿量的变化与垂体柄保留之间的关系。方法对43例颅咽管瘤患者术后资料按术中垂体柄保留与否分为两组进行回顾性研究,运用SPSS13.0统计软件对结
互联网上存在大量"同质"的网站或服务,以其封装而成的Mashup构件往往提供相同或相似的功能,为了获取最佳服务,用户不得不逐一浏览每个Mashup构件,花费大量的时间和精力。从用户