大数据下粗糙关联规则算法研究

来源 :昆明理工大学 | 被引量 : 3次 | 上传用户:vvlioo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据对于任何机构来说都是一种十分重要的资源,随着信息技术的发展,数据的增长速度远超过以往任何时期。数据这种资源异于其它相关资源,如果数据资源不能得到很好的利用,则带来的不是效益而是一种负担。目前,面对如何处理这些重要数据资源,各种数据挖掘技术起到了十分重要的作用。传统的各种数据挖掘算法与模式主要是针对小数据量与结构化数据的分析与挖掘;而如今大数据是以非结构化数据为主,研究者则需要重新思考虑原来的算法与模式,从而使数据挖掘模式能更好的适应于大数据时代的数据特征。在众多的数据挖掘模式中,粗糙集理论是一种用来处理不确性与模糊性知识的数据工具,目前已在人工智能、模式识别、决策分析等领域得到重要应用。通过分析传统的Apriori关联规则算法,发现传统的Apriori算法在处理数据时不仅会多次扫描事务数据库,而且同时还会产生大量的候选项集,这非常不适合处理大数据及非结构化数据;现阶段学者已提出的并行关联规则算法只能挖掘出频繁事务背后所隐藏的那种肯定关系,却无法发现其中的否定关系。而从实际应用的角度来讲,否定关系的实际作用与肯定关系具有同样的重要性。为此,本文深度分析了事务数据库的有关特征,并结合Boolean矩阵相关原理,运用粗糙集理论的分类思想及大数据环境下的MapReduce并行编程模型,提出了一种在MapReduce环境下的否定粗糙关联规则算法,以处理大数据背后所隐藏的那种否定关系。理论分析与实验结果表明该算法不仅可以提高现有并行算法的效率,而且还可以挖掘出大数据背后所隐藏的那种否定关系。这是粗糙集理论在处理大数据方面的一次有益尝试。
其他文献
苯甲醇是合成香料和医药的重要中间体,在感光、染整、化妆品、涂料及油墨等领域也有十分广泛的应用。苯甲醇有多种合成方法,其中氯化苄连续水解法制备苯甲醇具有收率高、无环
学习习惯对小学生有着至关重要的作用,良好的学习习惯有助于提高小学生的学习成绩和学习效率。学校社会工作者在开展实务时,经常会遇到因学习习惯不良而产生学习烦恼的同学。
随着改革开放的深入和市场经济的发展,巨大的人口压力和庞大的市场需求之间的矛盾,催生了劳务派遣这一行业。这一制度的确立,促进了劳动力的就业,但是由于法制不健全,导致劳务派遣
[研究背景和目的]急性心肌梗死(Acute Myocardial Infarction, AMI)已成为心血管疾病中死亡率不断增加的重要原因。心力衰竭是心肌梗死常见并发症,也是导致死亡的主要原因。
近年来随着我国对农业发展支持力度不断加大,农民专业合作社发展迅速,合作社数量高速增长、入社农户显著增多、生产的农产品种类多样,但基于合作社最初诞生于西方的本质和我国的
政府绿色采购(GPP)在国际上被公认为是一种重要的保护环境促进社会可持续发展的有效政策工具。欧盟等发达国家政府采购额通常占其GDP的15-25%,因此通常认为通过政府绿色采购
随着人们生活水平的不断提高,工作生活中开车的人们越来越多,长春市的汽车保有量逐年攀升,随之带来诸多问题,如空气环境污染、噪音污染、停车难等。特别是私家车停车难和无处
由于没有一套适合中文古籍特点和古籍管理方式的管理系统,目前高校图书馆古籍管理仍然沿用传统的手工管理方式。为了更好地开展古籍业务工作,提高工作效率和管理水平,满足古籍业
高尔夫这项运动起源于苏格兰,至今已有500年的历史。形成了“自律、自尊、礼让、宽容”的现代高尔夫球礼仪文化。中国作为四大文明古国之一,有“礼仪之邦”的美称,经孔、孟圣
在雕塑艺术长期以来的发展过程中,雕塑语言的拓展一直是雕塑学中的关键问题,不同时期的艺术家对雕塑的认知是不同的。根据中西方文明发展史上的记载,在古代人类很早就开始了雕