基于粗糙集的数据挖掘方法探讨

来源 :中国电子商情 | 被引量 : 0次 | 上传用户:liongliong433
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  引言:随着全球计算科学的不断发展和进步,许多行业都在应用网络信息过程中遇到数据量和信息量过大的问题,如何进行数据的筛选,从中提取信息的有用部分,是当今数据处理方面所面临的的最重要的一个课题,数据挖掘的方法正是为了满足此领域的要求被提出和发展。而其中粗糙集的数据挖掘方法也得到了广泛的应用,它应用过程较为高效,且各方面优势都较其他方法明显,在数据挖掘中进行粗糙集的应用不但提高了相关数据分析能力,还能够从中发现很高的实用和商业价值。本文就基于粗糙集的数据挖掘方法,简单介绍粗糙集和数据挖掘方法的相关概念,并对其中应用的几种简单方法进行阐述。
  一、数据挖掘相关概念
  现代数据分析过程可以很好的完成数据的采集、统计、录入和查询工作,对于发现数据之间的关系和准则则没有系统的手段,这必然导致数据过大但是有用知识不足的现象。传统上的数据表格和数据软件辅助处理技术,工作效率太低,工作量太大,得到的数据的数据结果并不是较为深层次的数据分析,隐含信息的获取不到位,真正的有效信息也就无法得到。对数据进行自动筛选,得到隐藏且有用,可以被人们理解的数据是很重要的数据处理手段,被称为数据挖掘,其过程如图1所示。
  数据挖掘应用智能数据转化技术,结构化、半结构化或者非结构化的原始数据被人们进行处理,交叉有数字可视化、模式识别、数理统计等其他学科,总结出易于理解,在特定条件下可以区分的知识,最好能用自然语言表达出发现的结果。粗糙集是数据挖掘方法中比较常见且有效的一种,它用于研究不完整数据和不精确知识的表达、学习归纳的数学分析理论[1]。它较为简单的算法和极少应用先验信息的优势促使其发展迅速,属性相对简单不断推进着这种方法的发展。
  二、粗糙集的发展历程及理论特点介绍
  2.1 粗糙集发展历程
  数据是对客观事物的属性、数量、位置或它们之间的相互关系的形式表示,是各种信息的载体。但是随着科技的发展,对于模糊数据的需求越来越小,分析事物的内在本质,需要对数据进行清晰明确的分析和筛选,含糊概念的研究由来已久,在上个世纪初,GFrgee教授就提出了含糊的概念,它表示在全域内不确定属于某个子集的那部分个体,直到上世纪六十年代左右,很多计算机科学家对含糊概念有进一步的研究,但是突破性的研究不多。到1982年,波兰科学家Pawlka.Z提出了粗糙集的概念,论文RoughSets的发表也正式表明粗糙集理论的诞生[2]。它对于非模型以及不确定信息处理过程有一定的应用,在非单调推理工具领域应用广泛。九十年代后,很多领域都应用粗糙集的数据挖掘技术,并取得了一定的成绩,受到全球很多计算科学家的关注,1996年在日本举行的第五届国际粗糙集、模糊集与机器学习国际研讨会,讨论了粗糙集方法在亚洲数据挖掘领域的实际应用和存在的问题,对亚洲相关领域的发展起到了巨大的推动作用。我国对于粗糙集的发展较晚,在上世纪九十年代才开始,随着国家对数据挖掘的愈加重视,粗糙集理论在国内的发展十分迅猛。
  2.2 粗糙集理论的特点
  粗糙集理论归根到底是知识的分类观点,它是对不确定的知识的处理。近似空间的观点被利用,从以知识为对象的数据集合中分类样本空间,粗糙集理论的最基本概念是不可分辨关系,为了表现模糊特性和不确定性,粗糙集中被引入上近似和下近似和成员关系等概念,其中的知识库是分类方法的组合,而概念则是对象的组合。
  三、基于粗糙集的数据挖掘方法
  基于粗糙集的数据挖掘方法模块常用的分为三种:数据预处理模块、属性约简模块和规则生成模块[3]。
  3.1 数据预处理模块
  数据预处理是对数据进行正式处理前的必须阶段,在其过程中可以排除很多不利数据的影响,包括人为何物理因素产生的空缺数据、不一致数据等,预处理的另一个目的是为了加快开发速度,对较为低级原始的数据源进行处理,它是高层开发的必备阶段,预处理过后呈现出方便灵活的数据抽象平台,主要包括的步骤有:数据的选择、数据的规约、概念分层和数据清洗等。
  3.2 属性约简模块
  属性约简是基于粗糙集理论中进行数据泛化和浓缩的主要步骤,其主要包括根据粗糙集基本理论的标准数据分析法和基于属性频率的启发式约简方法两种,其中前者的概念中,引入P是C相对于 Q 的约简,即POSp(Q)=POSc(Q),此条件中任意的a∈P,其中POSp(Q)≠POSp-{a}(Q)。P不能够再深层约简且约简的过程不影响决策属性的正域。后者则主要得到一个约简,其理论依据尚且不足,实际效果明显,对于属性集较大的数据处理来说,其得到的最小约简有利于提高计算性能。
  3.3 规则生成模块
  约简步骤后,要根据知识相容与否进行分类,相容可以采取一般的属性约简算法形成规则,约简集中被选出的单个约简以产生式形式表达[4]。不相容时,要根据相关的数学方法进行估计规则的确定性,分析过后在进行规则的生成。利用元组约简确定规则的数据集,不相容则要依据信息本身的特性找到相同的条件属性,从中得到规则后件。分组后的决策规则,被相同条件属性分配,以确定属性的可靠性。规则的获得是数据挖掘过程中最重要的一步,也基本完成了数据的隐含信息的获取。
  四、结束语
  数据挖掘是现代数据处理的重要方法,它对各行各业的信息化处理都有极大的现实意义,粗糙集理论的使用则进一步加快和优化了数据挖掘的发展,对全球信息化的发展有重要的利用价值,值得继续发扬和推广。
  参考文献
  [1] 陈正展.隐私保护的数据挖掘算法研究[D].扬州大学,2012.
  [2] 曹聪.云计算支持下的数据挖掘算法及其应用[D].广州大学,2012.
  [3] 蒋晖,陈允锋.数据挖掘及其一种关联规则算法[J].计算机与数字工程.2011(06).
  [4] 黄浩锋.嵌入式数据挖掘概述[J].福建电脑.2008(04).
  (作者单位:桂林电子科技大学)
其他文献
摘要:人才资源是第一资源,当今社会的竞争归根结底就是人才的竞争。这是几乎人人皆知的社会共识。伴随着全球经济一体化进程和知识经济的迅猛发展,人类社会已经步入了人才资源时代,人才资源成为经济社会持续发展的重要保证,人才资源管理与开发被提高到了重要位置而倍受重视。从我国人才资源管理的实践来看,作为人才主要载体的企业并不缺乏“管理人”的科学思想,缺乏的是如何将这些管理思想转化为规范化、可操作化的使用人才、
期刊
引言:伴随着电子计算机技术的飞速发展,传统的6502电气集中联锁系统迅速地被计算机联锁系统取代,后者已然成为了未来车站联锁系统的主要发展方向。自动测试作为这两年兴起的联锁软件测试方式,对比手动测试更有优势,本文将重点探析铁路信号计算机联锁系统自动测试的构造。  计算机联锁软件凭借其高效率、测试充分等特点成为了保证铁路列车和机车安全作业的重要软件,为了保障计算机联锁软件的高安全性我们必须对其进行安全
期刊
引言:本文首先介绍了局域网管理中常见的一些问题,然后论述了出现问题的原因,最后探讨了问题处理方法。  由于网络协议和网络设备的复杂性,许多故障解决起来绝非像解决单机故障那么简单,下面总结一下局域网常见网络故障及排除策略。网络故障的定位和排除,既需要长期的知识和经验积累,也需要一系列的软件和硬件工具,更需要你的智慧。因此,多学习各种最新的知识,是每个网络管理员都应该做到的。故障排除过程。在开始动手排
期刊
摘要:本文结合高层住宅小区供水系统改造的控制要求,详细介绍了基于三菱FX2NPLC控制系统的总体方案、硬件选型和软件流程的实现过程。  关键词:恒压供水;三菱FX2NPLC  中图分类号:TM921.51 文献标识码:A 文章编号:1006-6675(2013)15-  一、引言  随着城市化进程的加快,供水系统作为现代住宅小区的配套设施与人们生活质量密不可分。传统的供水方式也不能满足人们的需要,
期刊
引言:对象的链接与嵌入在Windows环境下的操作是微软办公中重要的一个部分、而且两者既实用又极易混淆的一种功能,本文重点对对象的链接与嵌入两者进行解析。  在Windows应用程序中,它提供了对象的链接和嵌入(Object Linking and Embedding,简称OLE)这种插入功能,其主要功能是在一个程序的文档中利用链接或嵌入的方式插入另一个程序的文档,换句话说就是把一个文件插入到另一
期刊
引言:通信业务的迅猛增长,主要体现为对传输带宽要求的增高。光纤通信以其独特的优越性,巨大的传输带宽成为当今最主流的信息传输方式,在所有信息传输领域得到广泛应用。分析光纤通信的优势,将有利于把握其未来发展趋势。本文简要分析了光纤通信技术的概念以及未来发展的前景,重点阐述了其应用范围。  光纤通信技术作为信息技术的重要支撑平台,具备体积小、容量大、抗电磁干扰、重量轻、传输频带宽、不易串音等优点,在各个
期刊
引言:伴随着现代经济的快速发展,社会已经步入信息化时代,电子信息产品已经融入人们生活之中。电子信息产品发展之迅速,更新换代之快,都是前所未有的,然而电子信息新产品的研发创新项目更是电子信息产业的重中之重,能够及时有效的提升企业核心竞争力。本文对电子信息新产品研发创新项目管理展开讨论,就其进行分析。  在全球经济一体化的大形势下,电子信息产业有了长足的发展,在我国电子信息产业对于我国市场经济有着十分
期刊
引用:新区公安局办公大楼网络综合布线系统是大楼智能化系统的重要组成部分,是信息通信网络的基础传输通道,该系统将满足语音、数据、图像等各种业务信息的传输要求。  一、前言  新区公安局作为新区重要的公安部门,其信息化应用水平将直接影响到公安工作的及时性、准确性及保密性。因此,在规划和设计综合布线系统时,必须充分考虑计算机信息网络系统、语音通信系统及各智能子系统对综合布线系统的要求,力求把综合布线系统
期刊
引言:VLAN(Virtual Local Area Network)即虚拟局域网,是一种通过将局域网内的设备逻辑地而不是物理地划分成一个个网段从而实现虚拟工作组的新兴技术。本文针对基于端口划分的VLAN技术与实现做进一步探讨。  一、VLAN的定义  VLAN(Virtual Local Area Network)即虚拟局域网,是一种通过将局域网内的设备逻辑地而不是物理地划分成一个个网段从而实现
期刊
引言:互联网时代,网络广告以其成本低、即时性、开放性的特点出现后,迅速成为人们关注的焦点,病毒营销也随之风生水起,如何让用户参与病毒营销呢?通过问卷调查,我们把用户使用社交网络的动机总结为与娱乐性为主,社交性、信息性为辅,针对用户使用互联网动机,对症下药,提出用以提高用户的参与度的多种方法,便于商家病毒营销更好的在社交网络上开展。  一、SNS发展现状  所谓“病毒式营销”,是通过用户的口碑宣传网
期刊