论文部分内容阅读
引言:随着全球计算科学的不断发展和进步,许多行业都在应用网络信息过程中遇到数据量和信息量过大的问题,如何进行数据的筛选,从中提取信息的有用部分,是当今数据处理方面所面临的的最重要的一个课题,数据挖掘的方法正是为了满足此领域的要求被提出和发展。而其中粗糙集的数据挖掘方法也得到了广泛的应用,它应用过程较为高效,且各方面优势都较其他方法明显,在数据挖掘中进行粗糙集的应用不但提高了相关数据分析能力,还能够从中发现很高的实用和商业价值。本文就基于粗糙集的数据挖掘方法,简单介绍粗糙集和数据挖掘方法的相关概念,并对其中应用的几种简单方法进行阐述。
一、数据挖掘相关概念
现代数据分析过程可以很好的完成数据的采集、统计、录入和查询工作,对于发现数据之间的关系和准则则没有系统的手段,这必然导致数据过大但是有用知识不足的现象。传统上的数据表格和数据软件辅助处理技术,工作效率太低,工作量太大,得到的数据的数据结果并不是较为深层次的数据分析,隐含信息的获取不到位,真正的有效信息也就无法得到。对数据进行自动筛选,得到隐藏且有用,可以被人们理解的数据是很重要的数据处理手段,被称为数据挖掘,其过程如图1所示。
数据挖掘应用智能数据转化技术,结构化、半结构化或者非结构化的原始数据被人们进行处理,交叉有数字可视化、模式识别、数理统计等其他学科,总结出易于理解,在特定条件下可以区分的知识,最好能用自然语言表达出发现的结果。粗糙集是数据挖掘方法中比较常见且有效的一种,它用于研究不完整数据和不精确知识的表达、学习归纳的数学分析理论[1]。它较为简单的算法和极少应用先验信息的优势促使其发展迅速,属性相对简单不断推进着这种方法的发展。
二、粗糙集的发展历程及理论特点介绍
2.1 粗糙集发展历程
数据是对客观事物的属性、数量、位置或它们之间的相互关系的形式表示,是各种信息的载体。但是随着科技的发展,对于模糊数据的需求越来越小,分析事物的内在本质,需要对数据进行清晰明确的分析和筛选,含糊概念的研究由来已久,在上个世纪初,GFrgee教授就提出了含糊的概念,它表示在全域内不确定属于某个子集的那部分个体,直到上世纪六十年代左右,很多计算机科学家对含糊概念有进一步的研究,但是突破性的研究不多。到1982年,波兰科学家Pawlka.Z提出了粗糙集的概念,论文RoughSets的发表也正式表明粗糙集理论的诞生[2]。它对于非模型以及不确定信息处理过程有一定的应用,在非单调推理工具领域应用广泛。九十年代后,很多领域都应用粗糙集的数据挖掘技术,并取得了一定的成绩,受到全球很多计算科学家的关注,1996年在日本举行的第五届国际粗糙集、模糊集与机器学习国际研讨会,讨论了粗糙集方法在亚洲数据挖掘领域的实际应用和存在的问题,对亚洲相关领域的发展起到了巨大的推动作用。我国对于粗糙集的发展较晚,在上世纪九十年代才开始,随着国家对数据挖掘的愈加重视,粗糙集理论在国内的发展十分迅猛。
2.2 粗糙集理论的特点
粗糙集理论归根到底是知识的分类观点,它是对不确定的知识的处理。近似空间的观点被利用,从以知识为对象的数据集合中分类样本空间,粗糙集理论的最基本概念是不可分辨关系,为了表现模糊特性和不确定性,粗糙集中被引入上近似和下近似和成员关系等概念,其中的知识库是分类方法的组合,而概念则是对象的组合。
三、基于粗糙集的数据挖掘方法
基于粗糙集的数据挖掘方法模块常用的分为三种:数据预处理模块、属性约简模块和规则生成模块[3]。
3.1 数据预处理模块
数据预处理是对数据进行正式处理前的必须阶段,在其过程中可以排除很多不利数据的影响,包括人为何物理因素产生的空缺数据、不一致数据等,预处理的另一个目的是为了加快开发速度,对较为低级原始的数据源进行处理,它是高层开发的必备阶段,预处理过后呈现出方便灵活的数据抽象平台,主要包括的步骤有:数据的选择、数据的规约、概念分层和数据清洗等。
3.2 属性约简模块
属性约简是基于粗糙集理论中进行数据泛化和浓缩的主要步骤,其主要包括根据粗糙集基本理论的标准数据分析法和基于属性频率的启发式约简方法两种,其中前者的概念中,引入P是C相对于 Q 的约简,即POSp(Q)=POSc(Q),此条件中任意的a∈P,其中POSp(Q)≠POSp-{a}(Q)。P不能够再深层约简且约简的过程不影响决策属性的正域。后者则主要得到一个约简,其理论依据尚且不足,实际效果明显,对于属性集较大的数据处理来说,其得到的最小约简有利于提高计算性能。
3.3 规则生成模块
约简步骤后,要根据知识相容与否进行分类,相容可以采取一般的属性约简算法形成规则,约简集中被选出的单个约简以产生式形式表达[4]。不相容时,要根据相关的数学方法进行估计规则的确定性,分析过后在进行规则的生成。利用元组约简确定规则的数据集,不相容则要依据信息本身的特性找到相同的条件属性,从中得到规则后件。分组后的决策规则,被相同条件属性分配,以确定属性的可靠性。规则的获得是数据挖掘过程中最重要的一步,也基本完成了数据的隐含信息的获取。
四、结束语
数据挖掘是现代数据处理的重要方法,它对各行各业的信息化处理都有极大的现实意义,粗糙集理论的使用则进一步加快和优化了数据挖掘的发展,对全球信息化的发展有重要的利用价值,值得继续发扬和推广。
参考文献
[1] 陈正展.隐私保护的数据挖掘算法研究[D].扬州大学,2012.
[2] 曹聪.云计算支持下的数据挖掘算法及其应用[D].广州大学,2012.
[3] 蒋晖,陈允锋.数据挖掘及其一种关联规则算法[J].计算机与数字工程.2011(06).
[4] 黄浩锋.嵌入式数据挖掘概述[J].福建电脑.2008(04).
(作者单位:桂林电子科技大学)
一、数据挖掘相关概念
现代数据分析过程可以很好的完成数据的采集、统计、录入和查询工作,对于发现数据之间的关系和准则则没有系统的手段,这必然导致数据过大但是有用知识不足的现象。传统上的数据表格和数据软件辅助处理技术,工作效率太低,工作量太大,得到的数据的数据结果并不是较为深层次的数据分析,隐含信息的获取不到位,真正的有效信息也就无法得到。对数据进行自动筛选,得到隐藏且有用,可以被人们理解的数据是很重要的数据处理手段,被称为数据挖掘,其过程如图1所示。
数据挖掘应用智能数据转化技术,结构化、半结构化或者非结构化的原始数据被人们进行处理,交叉有数字可视化、模式识别、数理统计等其他学科,总结出易于理解,在特定条件下可以区分的知识,最好能用自然语言表达出发现的结果。粗糙集是数据挖掘方法中比较常见且有效的一种,它用于研究不完整数据和不精确知识的表达、学习归纳的数学分析理论[1]。它较为简单的算法和极少应用先验信息的优势促使其发展迅速,属性相对简单不断推进着这种方法的发展。
二、粗糙集的发展历程及理论特点介绍
2.1 粗糙集发展历程
数据是对客观事物的属性、数量、位置或它们之间的相互关系的形式表示,是各种信息的载体。但是随着科技的发展,对于模糊数据的需求越来越小,分析事物的内在本质,需要对数据进行清晰明确的分析和筛选,含糊概念的研究由来已久,在上个世纪初,GFrgee教授就提出了含糊的概念,它表示在全域内不确定属于某个子集的那部分个体,直到上世纪六十年代左右,很多计算机科学家对含糊概念有进一步的研究,但是突破性的研究不多。到1982年,波兰科学家Pawlka.Z提出了粗糙集的概念,论文RoughSets的发表也正式表明粗糙集理论的诞生[2]。它对于非模型以及不确定信息处理过程有一定的应用,在非单调推理工具领域应用广泛。九十年代后,很多领域都应用粗糙集的数据挖掘技术,并取得了一定的成绩,受到全球很多计算科学家的关注,1996年在日本举行的第五届国际粗糙集、模糊集与机器学习国际研讨会,讨论了粗糙集方法在亚洲数据挖掘领域的实际应用和存在的问题,对亚洲相关领域的发展起到了巨大的推动作用。我国对于粗糙集的发展较晚,在上世纪九十年代才开始,随着国家对数据挖掘的愈加重视,粗糙集理论在国内的发展十分迅猛。
2.2 粗糙集理论的特点
粗糙集理论归根到底是知识的分类观点,它是对不确定的知识的处理。近似空间的观点被利用,从以知识为对象的数据集合中分类样本空间,粗糙集理论的最基本概念是不可分辨关系,为了表现模糊特性和不确定性,粗糙集中被引入上近似和下近似和成员关系等概念,其中的知识库是分类方法的组合,而概念则是对象的组合。
三、基于粗糙集的数据挖掘方法
基于粗糙集的数据挖掘方法模块常用的分为三种:数据预处理模块、属性约简模块和规则生成模块[3]。
3.1 数据预处理模块
数据预处理是对数据进行正式处理前的必须阶段,在其过程中可以排除很多不利数据的影响,包括人为何物理因素产生的空缺数据、不一致数据等,预处理的另一个目的是为了加快开发速度,对较为低级原始的数据源进行处理,它是高层开发的必备阶段,预处理过后呈现出方便灵活的数据抽象平台,主要包括的步骤有:数据的选择、数据的规约、概念分层和数据清洗等。
3.2 属性约简模块
属性约简是基于粗糙集理论中进行数据泛化和浓缩的主要步骤,其主要包括根据粗糙集基本理论的标准数据分析法和基于属性频率的启发式约简方法两种,其中前者的概念中,引入P是C相对于 Q 的约简,即POSp(Q)=POSc(Q),此条件中任意的a∈P,其中POSp(Q)≠POSp-{a}(Q)。P不能够再深层约简且约简的过程不影响决策属性的正域。后者则主要得到一个约简,其理论依据尚且不足,实际效果明显,对于属性集较大的数据处理来说,其得到的最小约简有利于提高计算性能。
3.3 规则生成模块
约简步骤后,要根据知识相容与否进行分类,相容可以采取一般的属性约简算法形成规则,约简集中被选出的单个约简以产生式形式表达[4]。不相容时,要根据相关的数学方法进行估计规则的确定性,分析过后在进行规则的生成。利用元组约简确定规则的数据集,不相容则要依据信息本身的特性找到相同的条件属性,从中得到规则后件。分组后的决策规则,被相同条件属性分配,以确定属性的可靠性。规则的获得是数据挖掘过程中最重要的一步,也基本完成了数据的隐含信息的获取。
四、结束语
数据挖掘是现代数据处理的重要方法,它对各行各业的信息化处理都有极大的现实意义,粗糙集理论的使用则进一步加快和优化了数据挖掘的发展,对全球信息化的发展有重要的利用价值,值得继续发扬和推广。
参考文献
[1] 陈正展.隐私保护的数据挖掘算法研究[D].扬州大学,2012.
[2] 曹聪.云计算支持下的数据挖掘算法及其应用[D].广州大学,2012.
[3] 蒋晖,陈允锋.数据挖掘及其一种关联规则算法[J].计算机与数字工程.2011(06).
[4] 黄浩锋.嵌入式数据挖掘概述[J].福建电脑.2008(04).
(作者单位:桂林电子科技大学)