论文部分内容阅读
现实中采集到用于分类学习的信息集合通常是基于连续特征空间的,但是,对于绝大多数机器学习算法来说,连续的特征值数据并不是一个合适的输入,必须将其离散化,采用高效的离散化算法,将会极大的提高机器学习算法的效率和精度,降低问题的求解复杂性并提高算法的可移植性,此外,将保持原始数据分类信息的离散化数据应用于机器学习算法所获取的知识具有更精简和更易理解的形式,因此连续属性值的离散化方法作为机器学习算法的预处理过程受到人们越来越多的关注。
近年来,作为一种新兴的归纳学习方法,粗糙集理论以其“不需对数据的任何先验假设”、“可提供非完备,非协调等不确定性知识获取方法”、“所获知识具有较好的直观可理解性”等显著优势获得人们的广泛关注。基于Rough集的离散化方法可以更加深刻的描述数据的依赖特征,获得较高的精度。
本文通过对大量现有连续值属性离散化方法进行分析总结,依据发现的问题对基于粗糙集理论的离散化算法进行优化。主要研究内容及成果有:
1.提出新的评价标准,对现有的多种离散化方法进一步分类细化,并在分类框架的基础上对典型方法进行评述。
总体来说,连续值属性离散化算法现有分类标准:动态和静态(Dynamicvs.Static),受监督和非监督(Supervisedvs.Unsupervised),全局和局部(Globalvs.Local),自顶向下和自底向上(Top-downvs.Bottom-up),直接划分和逐步划分(Directvs.Incremental)。本文依据“离散化过程是否考虑属性依赖性”可将离散化方法进一步分为属性独立的和属性依赖的方法(Attribute-independentvs.Attribute-dependent),通过建立离散化方法的分类框架可知具有Supervised,Global,Incremental,Attribute-dependent等特征的离散化算法可以具有相对良好的划分精度。而基于粗糙集理论的方法通常具有以上特点。
2.重点分析基于粗糙集理论的离散化方法,并依据发现的问题对原始的MD-算法进行优化。
基于粗糙集理论,利用连续属性值之间的序关系降低算法的时间和空间复杂度,设计具有线性存储结构的MD-离散化方法,并进行相关的算法复杂度分析和优化理论证明;依据分割点之间的关联对于离散化结果精度的影响,给出属性值域上分割点之间的相关性度量并设计相应的优化算法,进一步提高基于粗糙集理论的离散化算法的精度。
3.进行对比实验分析,完成优化算法相关的实验验证。
实现设计的优化算法,并将几种具有代表性的离散化算法以及优化后的算法应用于大规模遥感地理信息数据集,对算法效率及离散化结果进行综合分析评价。