基于模糊理论的决策树算法的研究及应用

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:shibin19860211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域,数据的分类是其研究的核心内容之一,而决策树算法,便是一种简单高效且应用比较普遍的分类算法。该算法的模型简单明朗,易于理解,可复用性强,同时具有较高的分类精度。经典的决策树算法不善于处理数据的模糊性问题,随着模糊理论在机器学习、人工智能等方面的应用,通过将模糊集合理论与决策树算法融合,诞生了模糊决策树算法,比如FuzzyID3、Min-Ambiguity算法等。模糊决策树算法的出现使经典决策树算法的应用得到拓展,对该类算法的发展有着深远的影响,使其能够处理具有不确定性的数据。论文的主要工作包括以下几点:(1)论述决策树以及模糊理论相关的基础概念,总结不同决策树算法分裂属性选取标准的差异,分析不同的决策树剪枝技术。重点比较清晰决策树与模糊决策树在建树过程、数据预处理、算法复杂度、规则匹配方式以及适用范围等方面的差异,总结它们的优缺点。(2)提出了通过K-means算法获取连续属性聚类中心点,并结合三角模糊数对连续数据模糊处理的方式。同时设计完成了基于FuzzyID3和Min-Ambiguity算法的可视化模糊决策系统。结合Weka开源数据挖掘软件中实现的C4.5和CART算法,通过实验分析,比较四种决策树算法在分类正确率和产生的规则数上的不同。实验发现FuzzyID3算法在各个数据集上都有较高的正确率,且规则数较少。CART算法生成的规则数最少,这是因为其二叉树的模型特点和以基尼指数作为分裂属性选取标准的特性。对比FuzzyID3和Min-Ambiguity两种模糊决策树算法,发现前者整体性能优于后者,同时实验分析了真实度对这两种算法的影响。(3)将模糊决策树算法应用到邮件分类中,设计了一种以FuzzyID3算法为核心,基于邮件行为特征的邮件分类模型,提出了一种邮件特征属性选取的方案和相应的模糊处理方案。通过实验验证发现,该模型在对邮件分类时具有较高的召回率和正确率,可以较为高效的识别垃圾邮件。
其他文献
在初中数学教学中,不少教师在评价环节喜欢“及时”“准确”地对学生的表现做出评价,觉得“快”比“慢”好,“即时评价”比“慢一拍评价”要好,其实有时候“慢一拍”往往会有意想
本文探析了上海流浪儿童日常生活中的受害问题发生的动态机理。本研究发现,针对流浪儿童的迫害问题的频繁发生,不单只是加害者的非法行为所导致;流浪儿童在经济上对非正式的
随着对半导体纳米TiO2研究的深入,其光催化特性及应用备受关注。在环保中,纳米TiO2常用于污染物的分解,是一种高效无二次污染的光催化剂。文章简要评述了纳米TiO2的基本性质
双峰寺水库是解决承德市防洪安全及城市供水的大型水利工程,库区及坝址区地质问题较多,水库渗漏、库岸稳定、水库浸没、地质构造稳定性及坝基(肩)抗滑稳定等都是影响水库建设
汽车中常用的变速器包括手动变速器(MT)、自动变速器(AT)两种基本形式,衍化而来的还有手自一体(AMT),MT和AT存在很多共通之处,文章主要对三轴式手动变速器和平行轴式自动变速器做以
小洼油田洼38-15—13c井因区块地层松散,原油黏度高以及注入蒸汽开采等原因出砂严重,经过一次机械防砂以及多次高温树脂人工井壁防砂措施后出砂问题仍未得到解决,后采用温固树脂
本文通过对全面预算管理理论的分析研究并结合企业实践经验,以PDCA循环的模式对制造型企业实施全面预算管理进行论述,按照不同的预算管理过程,运用了内外部分析制定战略目标,
阐述了当前我国企业发展中存在的问题,分析了阐述这些问题的原因,探讨了促进企业发展的经济措施,认为要解决问题,企业必须学会调整自己的业务市场竞争的策略,更需要在企业管
在多媒体教室中,鹅颈会议话筒是常用的扩音设备。教学中,鹅颈会议话筒电池电压低或电池没电,造成话筒音质差或无法工作,需要经常更换电池。这种状况常常在工作中带来诸多不便
采用热重(TG)分析法研究了不同升温速率下,S-N-P阻燃剂对聚碳酸酯(PC)热分解过程的影响。结果表明,S—N-P阻燃剂的加入使PC的初始分解温度和失重速率最大时的温度降低,即S-N-P阻燃剂