论文部分内容阅读
数据挖掘在各个领域中有着广泛的应用前景,是进行数据分析的重要工具。 企业在使用数据挖掘时,面临应用的分布性和对大数据集的挖掘需求这两个应用方面的问题。此外,还有企业本身的软硬件环境的限制。如何充分利用企业现有的软硬件资源,既能利用好数据挖掘这个强大的分析工具,满足应用需求,又能方便管理和节约成本,已成为亟需解决的问题。 本文提出了构建适应企业环境的通用型数据挖掘系统的解决方案。该方案包括近似挖掘技术的应用,以适应对大数据集挖掘进行的需求。设计和实现了基于EJB的数据分析助理DAA(Data Analysis Assistant)原型系统,并在该系统中进行挖掘实践。 在企业实际应用中,挖掘系统对大数据集挖掘的支持是必要的。本文通过理论分析和模拟实验,探讨了使用近似挖掘技术进行大数据集挖掘的途径,最后归纳出实现近似挖掘的三个要点,即算法、挖掘框架和挖掘思路应用。 原型系统DAA的功能涉及浏览、统计和数据挖掘等方面,其核心功能是数据挖掘。本文对DAA系统设计的论述包含基本功能的实现和系统性能的优化两个方面内容。 设计工作主要包括挖掘系统体系结构设计、挖掘服务器端设计和客户端设计。体系结构设计包括多层服务的划分和EJB体系的选择。服务器端设计是工作重点,包括EJB服务设计和Web服务设计。客户端设计涉及界面设计、任务描述和模型描述等内容。 在系统性能优化方面,结合了几个旨在提高系统性能的解决方案和技术。包括粗粒度访问方案、中间数据管理技术、挖掘的异步通信技术等内容。 最后给出一个典型的应用实例,即DAA在银行贷款系统的应用,包括分析人员进行建模和客户应用模型两个方面。同时给出了近似挖掘技术在挖掘实践过程中的应用实例。