论文部分内容阅读
数据挖掘(Data Mining)是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、及有潜在应用价值的信息或模式的过程。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。分类是数据挖掘技术研究的一个重要方向。常用的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。本文主要研究决策树ID3算法及其改进算法。 由于数据挖掘中分类算法在商业应用中最为广泛,而决策树算法是数据挖掘分类的核心算法之一。在决策树算法中有Quinlan于1986年提出的ID3算法最为著名,该算法有三大主要缺点:1.算法往往偏向于选择取值较多的属性,而取值较多的属性并不总是最优的属性。2.ID3只能处理离散属性,对于连续型的属性,在分类前需要对其进行离散化。3.ID3必须知道从叶子节点到树根的路径上所有内节点对应的属性的属性值。为了解决这些问题,本文在ID3算法的基础上提出了改进算法,通过使用同一训练集对不同算法建立的决策树的比较,得出改进算法比ID3算法所得的决策树更为理想。 本文用Java这种完全面向对象的高级语言实现ID3算法及改进算法,应用在网上书店交易方案的挖掘实例中,完成从数据导入到生成规则的完整的数据挖掘步骤,并使生成的规则可视化显示,为决策者提供决策支持。另外采用XML存储待挖掘数据,鉴于XML的“足以表达各种类型的数据,应用于与不同的数据源进行交互,解决了数据的统一接口问题”优点,尝试并应用在ID3算法的改进与实现中,为任意数据库转换成XML格式的数据挖掘提供了思路。