KDD中的几个关键问题研究

被引量 : 0次 | 上传用户:t920215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
I 摘 要 数据库中的知识发现(Knowledge Discovery in Database,KDD)是在应用需求的背景下产生并迅速发展起来的、开发信息资源的一套科学方法、算法及软件工具和环境,是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。KDD 是识别有效的、新颖的、具有潜在用处的可理解的数据模式的过程。一般地,KDD 由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式(型)评估、知识表示等过程组成。KDD 有三个重要的环节,即数据预处理、数据挖掘和结果可视化。 本文在详细分析国内外 KDD 研究现状的基础上,借鉴生物进化、计算智能、关系代数、petri 网等概念与理论,提出了基于自适应聚类、模糊聚类进行数据预处理的算法;基于关系代数和自适应混合算法集成的关联规则挖掘算法、泛化关联规则挖掘算法;分析了分类挖掘机理及文本分类与降维技术;针对现有的数据挖掘结果的可视化理论及技术,提出了基于 petri 网的鲁棒性的、统一的可视化模型;最后,实现了一个数据挖掘的应用实例,验证了文中有关算法和方法的有效性。主要研究内容如下: (1)数据预处理是确保数据挖掘成功的关键,文中将数据库理论与自适应并行优化算法相结合,给出了 KDD 与数据库/数据仓库无缝集成的 KDD 模型,并提出了基于自适应聚类与并行优化算法混合的数据预处理算法。仿真实验证明了算法的有效性,该算法可用于分类、聚类、关联规则等数据挖掘的预处理,并可推广到不同类型数据的数据预处理中。 (2)在数据预处理的基础上,提出了利用关系代数理论、数据库与 KDD 协同理论挖掘关联规则、泛化关联规则的算法,仿真结果表明了算法的有效性。与经典的 Apriori 算法相比,该算法只需扫描一次数据库,具有良好的并行性和可伸缩性,并易于推广到模糊关联规则的挖掘。 (3)分类是数据挖掘的主要应用之一。文中给出了分类挖掘的形式化定义,分析了分类挖掘的基本机理。在此基础上,提出了一种 Web 文档分类的基本框架,分析了用于文档分类的降维技术,给出了基于主分量分析和支撑矢量机的文档分类的基本思想,分析了仿真实验的结果。 (4)数据挖掘结果及数据挖掘过程的可视化表示是 KDD 的又一个重要的组成部分。在分析了现有可视化理论及表示方法的基础上,针对其不足,提出了用petri 网表示挖掘过程及挖掘结果的统一的、鲁棒性的框架,该方法也适用于动态规则的可视化表示。 (5)以陕北黄土高原多个地貌区为试验样区,在数字高程模型(DEM)所提取的数据集的基础上,挖掘各种地形因子对平均坡度的影响程度(国家自然科 雷达信号处理国家重点实验室<WP=6>II KDD 中的几个关键问题研究学基金项目(49971065)、国家高技术研究发展计划课题(2001AA130023)),以建立适合黄土高原多种地貌类型的,DEM 所提取的地面坡度随分辨率与地形变化的模型。实验结果具有很高的精度,证明了文中有关算法和方法的有效性。将KDD 和数据挖掘理论与算法用于地学信息处理是一种新的尝试,挖掘结果既有效地估算了地理空间数据的不确定性、非线性的关系特征,又从一个侧面揭示了黄土高原 DEM 地形信息容量变化的规律性,为建立黄土高原地形信息图谱提供了重要素材。
其他文献
对离子交换树脂的发展、交换机理、制备方法等进行了综述,简单介绍了离子交换树脂性质及制备高工艺和方法,最后对离子交换树脂在当今制药工业的应用做了简单介绍。
针对LTB245E1型断路器的合后即分故障,结合其机构的原理和高速摄像技术,对断路器合闸过程进行仔细分析,确定其故障是由于内因或外因导致的,并针对具体原因提出相应的整改措施
本文从主催化剂注入量、氢气进料量、浆料循环、夹套循环冷却水调节阀、环管反应器夹套水换热器等方面分析影响丙烯聚合温度的原因,通过增设换热器和篮式过滤器、稳定催化剂
随着信息革命、企业资本扩大以及市场的国际化,“规模之利润”的原理宣告终结,成本和质量竞争日益成为现代企业核心竞争力的关键要素。如何对成本进行管理日益成为各国理论和实
内部审计具有发现单位内部的隐患、堵塞漏洞、预测风险、提出合理化建议、加强管理、促进单位的正常运营和积极发展的重要作用。但是从目前我国行政事业单位内部审计工作现状
低频振荡是互联电力系统固有的现象,其振荡的稳定性是保障系统安全运行的先决条件,因此得到极大关注。随着系统规模和复杂程度的不断增加,传统的小信号稳定分析已经不能满足电力
1998年7月17日, 联合国 “建立国际刑事法院”外交大会在意大利罗马通过了《国际刑事法院规约》, 即《罗马规约》。《罗马规约》的通过,标志着一个崭新的常设性的国际刑事司
市场经济下,企业面临着降低成本、提升商品质量、缩短交货期的压力。因此,面对如此竞争的市场环境,企业越来越重视客户服务,以客户的利益和需求为中心,而顾客服务中的物流服
结合高校学生公寓管理的特点,使用JSP技术、Tomcat服务器,采用My SQL数据库,并使用Spring集成My Batis框架,研究基于Struts的学生公寓管理系统。论文对系统的功能和设计方案
视角反映人们看待对象世界的角度和态度,是一个涉及观察者、观察对象以及观察路径的概念,并反映在语言的表层结构中。旅游翻译中,译者应根据原文作者的谋篇视角选择词语;叙述