论文部分内容阅读
在数据挖掘领域,数据的分类是其研究的核心内容之一,而决策树算法,便是一种简单高效且应用比较普遍的分类算法。该算法的模型简单明朗,易于理解,可复用性强,同时具有较高的分类精度。经典的决策树算法不善于处理数据的模糊性问题,随着模糊理论在机器学习、人工智能等方面的应用,通过将模糊集合理论与决策树算法融合,诞生了模糊决策树算法,比如FuzzyID3、Min-Ambiguity算法等。模糊决策树算法的出现使经典决策树算法的应用得到拓展,对该类算法的发展有着深远的影响,使其能够处理具有不确定性的数据。论文的主要工作包括以下几点:(1)论述决策树以及模糊理论相关的基础概念,总结不同决策树算法分裂属性选取标准的差异,分析不同的决策树剪枝技术。重点比较清晰决策树与模糊决策树在建树过程、数据预处理、算法复杂度、规则匹配方式以及适用范围等方面的差异,总结它们的优缺点。(2)提出了通过K-means算法获取连续属性聚类中心点,并结合三角模糊数对连续数据模糊处理的方式。同时设计完成了基于FuzzyID3和Min-Ambiguity算法的可视化模糊决策系统。结合Weka开源数据挖掘软件中实现的C4.5和CART算法,通过实验分析,比较四种决策树算法在分类正确率和产生的规则数上的不同。实验发现FuzzyID3算法在各个数据集上都有较高的正确率,且规则数较少。CART算法生成的规则数最少,这是因为其二叉树的模型特点和以基尼指数作为分裂属性选取标准的特性。对比FuzzyID3和Min-Ambiguity两种模糊决策树算法,发现前者整体性能优于后者,同时实验分析了真实度对这两种算法的影响。(3)将模糊决策树算法应用到邮件分类中,设计了一种以FuzzyID3算法为核心,基于邮件行为特征的邮件分类模型,提出了一种邮件特征属性选取的方案和相应的模糊处理方案。通过实验验证发现,该模型在对邮件分类时具有较高的召回率和正确率,可以较为高效的识别垃圾邮件。