模糊关联规则挖掘算法研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:poabc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:由于信息技术的发展迅速,海量信息不断累积,如何从大量并且随机的数据集中挖掘出一些有价值的信息,是一个重要而且有意义的研究方向,所以带动了数据挖掘技术的迅速发展。这样能利用模糊关联规则挖掘数据库中各个数据之间的关联,更有效的为我们服务。本文则研究模糊关联规则算法及其改进算法。
  关键词:数据挖掘;模糊关联规则
  study of fuzzy association rule mining technology
  Ran Na
  (Department of Computer ,Sichuan TOP IT Vocational Institute ,Chengdu 611743 ,China)
  【 ABSTRACT 】 Due to the rapid development of information technology and the accumulation of massive information, it is an important and meaningful research direction and research to excavate some valuable information from a large number of random data sets. So the rapid development of data mining technology. In this way, we can use fuzzy association rules to mine the association between data in the database and serve us more effectively. In this paper, the fuzzy association rules algorithm and its improved algorithm are studied.
  【 KEY WORDS 】: data mining; fuzzy association rules mining;
  一、研究背景及意义
  关联规则重点在于找到不同数据之间的关系,并且找到大于已经设置好的支持度和置信度阀值的,并且隐藏在多个领域之间的数据关联规律[1],按照给不一样的属性进行取值方式,关联规则包含两种类型:第一种是布尔型关联规则,第二种是多值属性关联规则,在对第二种类型的挖掘过程中,如果将属性值精确划分到某个特定范围内,可能会导致比较突出的边界问题,从而导致丢失了区间边界周围的有用信息。为了解决这个问题,在挖掘中加入模糊概念方法,可以将多值属性进行模糊化处理,达到从一个区间到另一个区间的过渡比较平顺,保存区间周围信息的目的[2]。因此,数据库是多值属性的可以用属性模糊化的办法来获得更多、并且更有用的规则,本文的数据集就是属于多值的。
  二、算法分析和研究
  在推荐系统中使用模糊关联规则的原因如下:首先可以更直接地展示推荐结果,而且会以比较容易的方式让用户接受,其次可以轻松发现新的兴趣点,而且不需知道过多的专业知识。
  (一)基于 Fuzzy FP-tree 的模糊关联规则挖掘算法
  Lin等人第一次使用了一种叫做模糊关联规则挖掘方法——Fuzzy FP-tree算法进行挖掘[3]。它借鉴了FP-tree的算法中心内容,使用“分层治理”方法,先整理数据库中的信息保存在FFP-tree这样的结构中。FFP-tree的优势是不需要构成复杂的候选项集,基本没有什么内存占用,不足在于处理模糊属性本领较弱,会直接挖掘结果中有意义的信息,无法获得完整的挖掘规则。研究的改进算法有比较强的能力,不会造成有用信息丢失。
  (二)改进的模糊关联规则挖掘算法
  通过研究了很多篇资料可以得知,对模糊关联规则挖掘影响最大的因素就是支持度的确定和隶属度的确定。隶属度由隶属函数计算出来的。所以要想改进模糊关联规则,就要挖掘出更高效的隶属度函数确定的方法。改进的算法为NFAR(New Fuzzy Association Rules),研究改进算法需要首先通過隶属函数将模糊化数据库为Df 。接着计算各个模糊项目的支持度,筛选出支持度大于最小支持度的数据构成频繁1-项模糊集L1。由L1形成候选2-项集C2 ,通过Fuzzy FP-tree算法对C2去除噪声数据形成包含有意义数据的频繁模糊项目集。所有满足ms的模糊项目都加入到L1 中,可以让数据更加完整。
  (三)算法实验
  为了评估改进算法的效率,实验数据来自大型数据库订单信息表,对Fuzzy FP-tree算法与改进的模糊关联规则算法NFAR算法进行比较。10000 条相同属性模糊化处理之后分别使用两种算法挖掘关联规则。将数值型属性通过各自设定的隶属函数转化为模糊项目集,就能将数据库 D转化为模糊数据库Df,接下来对转化后的数据进行算法性能测试。
  在此部分的实验中,主要是比较两种算法在相同支持度的情况下,对不同数量的数据集进行挖掘,得出频繁项集所用的时间。设置相同的最小支持度为10%,对于数据集取出不同数目的实验数据,分别取出数据集的1000条,2000条,4000条,5000条和8000条进行试验,比较二者算法所用的时间。
  比较结果如图1所示
  通过上面的实验证明了,改进的NFAR算法在处理不同数量的数据集的情况下,效率是优于Fuzzy FP-tree算法的。在数据集的数量较小时,两种算法的性能相差很小,但是当数据集中的数据的逐渐变多时,改进算法的效率有了较大提高。原因在于改进算法主要是去除噪声数据,去除了对生成频繁项集毫无意义的数据,也就减少了搜索频繁项集所用的时间,所以在数据集多的时候,新的算法可以更好的提升挖掘效率。
  三、结语
  目前,学者们对关联规则挖掘技术挖掘热情越来越高涨,各个方面都能看到它的运用。模糊关联规则作为其中的一个非常重要的领域,对它的学习具有重大的意义。类似于大型购物网站,与我们的日常生活密切相关,而且伴随着挖掘技术的不断成熟与发展,网站的前景发展广阔。
  参考文献:
  [1] 廖志 ,郝志峰 ,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2011:188.
  [2] 李雄飞 ,董元芳 ,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2015:12..
  [3] Lin C W,Hong T P,Lu W H. Linguistic data mining with fuzzy FP-trees[J]. ExpertSystems with Applications,2015,37:4560-4567.
  作者简介:
  ①冉娜(1983-),女,汉,四川广安人,讲师,研究生,主要研究方向为数据挖掘。
其他文献
摘 要:随着我国城市化进程的逐渐加快,城市轨道交通在城市生活中的作用越来越大,可以说城市轨道交通是城市发展的充要条件。自动售检票系统,作为城市轨道交通系统中重要的组成部分,不仅能够实现票务的自动化管理,而且还能够就轨道交通的使用为相关部门的决策提供科学的数据支持。可以预见,在未来城市的城市轨道交通中,自动售检票系统必然有着更加重要的作用。本文将就自动售检票系统的发展现状展开探讨,并分析其未来的发展
摘 要:高速公路具有双重属性,因为它的特殊性,近年来,我国政府越来越注重对高速公路企业的管理,随着高速公路行业的快速发展,我国开始对其实行内部控制的管理。我国内部控制管理起步相对于国外发达国家来说要晚很多,很多规范都是借鉴国外的研究成果,虽然新制度在不断的完善,但是还是有很多不适应中国国情,加上很多人接受新知识的速度慢,导致内部控制未能实施于实际工作中。随着高速公路行业建设步伐不断加快,随之暴露出
期刊
摘 要:本文描述了影响某变频模块测试通过率低的原因,并运用正交试验法改进测试工装探针参数,从而提高工装压接通过率和模块测试效率。结果表明测试工装优化后,测试性能明显改善。  关键词:正交试验;测试探针;压接通过率;参数选择  1.引言  随着分布式雷达的不断发展,其核心器件变频模块种类和结构不同,测试时需要不同的测试工装,测试工装的性能优劣直接关系到产品的研制周期及系统可靠性。因此针对如何快速有效
摘 要:透过韩国垃圾焚烧烟气净化工艺路线发展历程,研究韩国首尔市四座在运行生活垃圾焚烧厂的各种工艺流程,以及在各种不同工艺流程下主要污染物排放的数据进行对比分析,提出针对中国垃圾焚烧行业存在问题和当前应推行的垃圾焚烧烟气净化的主流工艺技术路线。  关键词:垃圾焚烧 烟气净化工艺 排放效果 对比分析  COMPARATIVE ANALYSIS OF FLUE GAS CLEANING PROCESS
摘 要:在直接法合成甲基氯硅烷单体过程中会产生大量的副产物---高沸物,对有机硅高沸物进行裂解可以制备成甲基氯硅烷。本文针对有机硅高沸物裂解工艺进行了重点解析,探讨了有机硅高沸物裂解的反应机理,为这种技术的应用和发展积累一些技术资料。  关键词:有机硅高沸物;裂解工艺;工业化  0引言  在以往的许多年间,我国工业产业领域中有机硅原料单体生产过程中副产的高沸物始终无法被妥善处理,国内对高沸物无害化
摘 要:随着科学技术的进一步发展,虚拟化技术和云计算技术因其高效、灵活和简便等优势逐渐成为各个行业使用的主要技术,应用和发展前景较好,有利于处理效率的提高。但在实际的应用过程中,IT架构无法有效地处理增加的数据,尤其是在效率、安全和质量上存在较大的问题。本文分析了IT基础结构下,虚拟化技术和云计算的现状、理论和重要性等相关内容,从多个角度提出了技术的应用改进方法。  关键词:IT架构;虚拟化技术;
摘 要:在企业发展进步的过程中,安全问题是企业发展中首要要保障的一项重要内容,企业人员以及企业自身的安全保障是企业发展经济壮大自身的基础。所以,在企业的安全管理中,电气设备的管理是非常重要的一项。电气管理是一项非常危险的工作,其不仅专业性强且危险因素也会不确定的,不仅涉及的面广而且在故障发生后所造成的伤害和影响都是非常大的。能否迅速的排除故障,最大程度上减少资源的流失取决于管理人员查找故障的能力。
摘 要:机电设备安装是工程施工中的重要工作,同时是工程施工的难点。随着建筑施工新材料、新设备和新技术的应用,机电设备安装工程施工管理也变得越来越复杂。文章就此针对机电安装工程施工过程中存在的问题进行了分析,并制定出了合适的解决措施,以期提高机电安装工程的安全性和质量,具体内容供大家参考和借鉴。  关键词:机电安装工程;问题;解决措施  前言  建筑机电安装工程是建筑工程施工当中的一个很重要的组成部
摘 要:车辆段行车安全管理要:建立新型自查体系,我们目前的检查手段落后,传统的人盯人战术和查岗查哨办法,在管理跨度扩大和科室下部减少后难以为继;严格执行标准化作业,严抓劳动纪律; 建立完善的绩效考核体制,做到奖罚分明,是提高执行力和加强工作落实的关键环节。  关键词:地铁车辆;行车;安全管理;研究  行车安全是地铁运营的根本,只有保证了行车的安全才能更好的服务大众,而车辆段行车安全是地铁行车安全的
摘 要:石油化工工程具有较高的危险性,其安全管理是社会关注的重点问题之一。基于此,本文从石油工程的安全管理现状出发,分析了存在于石油化工工程的几项常见问题并提出了几点改善措施,以期对石油化工项目的安全管理起到一定的借鉴作用。  关键词:石油工程;安全管理;工程建设  引言  石油化工建设工程项目和普通的建筑工程项目存在很大的差别,它结合了一般工程项目的特点,同时还具备危险系数高、工程复杂等特征。而