论文部分内容阅读
本文的主要研究是在国家863高技术项目——面向CIMS的数据仓库及数据挖掘研究(863-511-946-01)、渔情分析专家系统(818-07-03),以及国家自然科学基金项目——多策略数据库知识发现研究(69803010)支持下完成的。本文介绍了KDD中机器学习和统计学习理论,研究了大规模数据约简和分类中的基于格的数据约简、高维数据的降维、决策树的画法与可视化等关键技术,并给出了应用实例。本文的贡献主要包括如下几个方面:(1)基于格的数据约简:数据约简是保留决策相关信息的前提下减少数据的尺寸。本文着重讨论了基于格的约简中的机制,提出了基于格的约简算法INREDUCT和INREDUCTCLS。前者用于聚类问题,后者用于分类问题。它们生成最小E-集和最大E-集之间的超元组,从超元组中能够得到与原始数据相同的、甚至更好的决策。超元组h表示成三元组(|h|, {xdsp}, {childi}),其中|h|表示h中包括的简单元组数目,{xdsp}是每个属性的表示,{childi}是指向h包含的元组的指针的集合。超元组是特征空间中的超立方体,通过分析它们边界的密度朝样本密集区域移动,因而具有很好的代表性和概括能力。算法是渐增的,次优的,具有近似线性的复杂度。在该方法中,我们首次提出利用各个维上的边界(处密度)控制超元组对应的超立方体在特征空间中调整,达到次优的覆盖能力和代表性,前者是约简率的保证,后者是正确性的保证,并且通过引入格的方法可以从理论上分析该方法的有效性和合理性。(2)高维数据中高效的相似性计算方法:相似性的计算是CBR和k-NN等Lazy Learning研究中十分关键的问题。本文研究了降低相似性计算代价的方法,并以k-NN为例,介绍了基于部分特征的相似性算法和基于投影的相似性算法,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率。实验表明效率的提高是明显的,其中基于部分特征的k-NN算法效率提高26~28%,基于投影的k-NN算法效率提高48~83%。(3)决策树的画法及可视化技术:提出了一种新的画树方法。通过对美观的树的定义,给出了三个调整算子。在该方法中,先画出一个正态树,然后在对树的遍历过程中利用这三个算子依次调整结点,将得到一棵最紧凑的任意叉树。算法的复杂度较低,结构清晰。同时,描述了树的可视化要点,并成功用于数据采掘系统的决策树可视化。(4)超范例与专家知识的融合:数据库中发现的知识与领域专家的知识