论文部分内容阅读
随着社会的发展,社会的组织化程度和生产的社会化程度越来越高,信息量越来越大,对信息的处理工作越来越重要。80年代末才起步的数据仓库技术则与决策支持系统相依相辅,数据仓库技术采用全新的数据组织方式,对大量的原始数据进行各种处理并转换成有用的信息,用户可以通过分析这些信息从而作出策略性决策。 本文系统介绍了数据仓库的特点,国内外发展动态、体系结构,并结合交通规划决策支持系统研究了数据仓库的设计方法和步骤以及居民出行数据中的数据挖掘。此外,本文还介绍了决策支持系统(DSS)的理论基础、分类方法及基于四库系统的理论。 然后,我们对数据挖掘进行深入的研究,探讨各种知识发观方法,以及研究如何将数据库和机器学习等方法有效地结合在一起,应用于具体的科研和实际领域中。数据库知识发现(Knowledge Discovery in Databases,简称KDD),或者称为数据挖掘,是涉及人工智能和数据库等学科的一门当前相当活跃的研究领域。在当今数字化社会中,各种商业、政府、科学数据库和数据量的急剧增长,远远超过了人类目前已有的分析和理解能力,因此从大量的数据中智能地、自动地提取出有价值的知识和信息的研究,即数据库知识发现,具有十分重要的现实意义和广泛的应用前景。 分类在数据挖掘中是一项非常重要的任务。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,从而用于数据分类或预测。在评述各种数据挖掘方法(包括分类知识发现、关联规则发现、数据聚类和数据总结等)的基础上,论文结合机器学习的基本理论和方法,重点研究了分类方法中决策树算法,并给出了决策树经典算法ID3算法的实现过程,在此基础上对ID3方法的扩展作了一些研究。 最后给我们应用分类方法在居民出行数据中挖掘出一些公交乘客规则,讨论了数据挖掘方法在公交乘客预测中应用的前景和实效。