论文部分内容阅读
I 摘 要 数据库中的知识发现(Knowledge Discovery in Database,KDD)是在应用需求的背景下产生并迅速发展起来的、开发信息资源的一套科学方法、算法及软件工具和环境,是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。KDD 是识别有效的、新颖的、具有潜在用处的可理解的数据模式的过程。一般地,KDD 由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式(型)评估、知识表示等过程组成。KDD 有三个重要的环节,即数据预处理、数据挖掘和结果可视化。 本文在详细分析国内外 KDD 研究现状的基础上,借鉴生物进化、计算智能、关系代数、petri 网等概念与理论,提出了基于自适应聚类、模糊聚类进行数据预处理的算法;基于关系代数和自适应混合算法集成的关联规则挖掘算法、泛化关联规则挖掘算法;分析了分类挖掘机理及文本分类与降维技术;针对现有的数据挖掘结果的可视化理论及技术,提出了基于 petri 网的鲁棒性的、统一的可视化模型;最后,实现了一个数据挖掘的应用实例,验证了文中有关算法和方法的有效性。主要研究内容如下: (1)数据预处理是确保数据挖掘成功的关键,文中将数据库理论与自适应并行优化算法相结合,给出了 KDD 与数据库/数据仓库无缝集成的 KDD 模型,并提出了基于自适应聚类与并行优化算法混合的数据预处理算法。仿真实验证明了算法的有效性,该算法可用于分类、聚类、关联规则等数据挖掘的预处理,并可推广到不同类型数据的数据预处理中。 (2)在数据预处理的基础上,提出了利用关系代数理论、数据库与 KDD 协同理论挖掘关联规则、泛化关联规则的算法,仿真结果表明了算法的有效性。与经典的 Apriori 算法相比,该算法只需扫描一次数据库,具有良好的并行性和可伸缩性,并易于推广到模糊关联规则的挖掘。 (3)分类是数据挖掘的主要应用之一。文中给出了分类挖掘的形式化定义,分析了分类挖掘的基本机理。在此基础上,提出了一种 Web 文档分类的基本框架,分析了用于文档分类的降维技术,给出了基于主分量分析和支撑矢量机的文档分类的基本思想,分析了仿真实验的结果。 (4)数据挖掘结果及数据挖掘过程的可视化表示是 KDD 的又一个重要的组成部分。在分析了现有可视化理论及表示方法的基础上,针对其不足,提出了用petri 网表示挖掘过程及挖掘结果的统一的、鲁棒性的框架,该方法也适用于动态规则的可视化表示。 (5)以陕北黄土高原多个地貌区为试验样区,在数字高程模型(DEM)所提取的数据集的基础上,挖掘各种地形因子对平均坡度的影响程度(国家自然科 雷达信号处理国家重点实验室<WP=6>II KDD 中的几个关键问题研究学基金项目(49971065)、国家高技术研究发展计划课题(2001AA130023)),以建立适合黄土高原多种地貌类型的,DEM 所提取的地面坡度随分辨率与地形变化的模型。实验结果具有很高的精度,证明了文中有关算法和方法的有效性。将KDD 和数据挖掘理论与算法用于地学信息处理是一种新的尝试,挖掘结果既有效地估算了地理空间数据的不确定性、非线性的关系特征,又从一个侧面揭示了黄土高原 DEM 地形信息容量变化的规律性,为建立黄土高原地形信息图谱提供了重要素材。