论文部分内容阅读
信息技术的研究与应用的高速发展,推动了数据挖掘技术的研究。目前关于数据预处理的研究已经取得了很多成果,在数据预处理不同阶段、不同问题的研究也涌现出了很多优秀的预处理工具和相应的预处理算法。在实际应用中,数据挖掘预处理工具的多样性、不可扩展性、预处理过程的复杂性和众多的预处理算法常常让数据挖掘使用者感到困惑,越来越庞大而杂乱的数据和越来越多可供选择的数据预处理技术要求终端用户掌握大量的数据挖掘知识和业务知识,这给用户造成很大的负担,并且会因为用户对挖掘知识的掌握程度的不同而产生偏差。针对这些问题,本文对数据预处理的智能推荐应用做了一定的研究。智能化主要体现在两个方面:预处理过程的智能化和预处理过程中算法选择的智能化。针对这两个方面,论文的主要工作和创新点如下:1、研究了数据挖掘中数据预处理过程中的不同技术,分析具体预处理算法的特点并得到相应的智能推荐方案;2、构造一个多agent架构的数据预处理整体框架,解决现有的数据预处理系统通用性差、不易扩展和对资源调度不够充分的问题。框架将预处理算法、用户交互、系统调度等功能集成在整个系统中;系统中还设计了不同算法的推荐知识库,该知识库不断完善,使该框架具有开放性和可扩充性,可为不同背景下的预处理任务提供支持;3、针对数据预处理系统的智能化问题,引入多Agent技术,提出了一个基于Agent的知识发现模型,用Agent来描述数据预处理过程的各个部分,整个预处理过程即是一个多Agent系统;4、引入智能化推荐模型,用知识库方式为用户提供一个科学的算法推荐方案,通过粗糙集理论对知识的分类能力,可以实现算法的智能推荐。5、设计并实现了一个基于以上框架的系统原型,系统采用agent架构,并实现了离散化智能推荐功能。