优化的ID3算法在酒店客房续费问题中的应用

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:k88ls06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的逐步成熟,分类预测之类的数据挖掘技术也得到了高速的发展,分类预测技术中的决策树方法也常常被应用于多个行业领域。ID3算法作为影响力最大的决策树算法之一而且得到了大范围的应用,然而ID3算法也有一些不足之处。本文主要针对ID3算法多值偏向、算法公式计算量大两方面的的缺陷,通过对ID3算法进行算法改进和公式简化,从而实现对ID3算法的优化,主要进行的工作为:(1)提出基于矫正函数的ID3优化方案。在基于矫正函数的ID3优化方案中,克服多值偏向问题的方法为:通过引入矫正函数的定义,对子元组所需的期望信息量进行矫正,多值偏向分析证明改进后的ID3算法可克服多值偏向问题;克服ID3信息增益公式运算较为耗时的方法为:通过利用等价无穷小简化信息增益公式,使得简化后的信息增益公式中已消除了较为耗时的对数运算。最后,将算法改进和信息增益公式简化两部分的工作相结合,并提出了基于矫正函数的决策树优化算法。实验结果分析表明:与ID3算法相比,在分类精度和计算时间两个方面,基于矫正函数的决策树优化算法具有更好的优化效果。(2)提出基于相关系数的ID3优化方案。在基于相关系数的ID3优化方案中,克服多值偏向问题的方法为:将相关系数修改成适用于决策树领域的新型相关系数,通过引入新型相关系数子元组所需的期望信息量进行重新矫正,实验中的多值偏向相关理论的分析证明了改进后的ID3算法能够解决克服多值偏向的缺陷;克服ID3信息增益公式运算较为耗时的方法为:通过利用麦克劳林公式简化信息增益公式,使得简化后的信息增益公式中已消除了较为耗时的对数运算。最后,将算法改进和信息增益公式简化两部分之间工作进行结合,得到了基于相关系数的决策树优化算法。实验结果表明,相比于ID3算法,基于相关系数的决策树优化算法既能克服多值偏向问题,又具有更高的分类精度,同时也降低了决策树的生成时间;相比于基于矫正函数的决策树优化算法,除了在决策树生成时间方面,基于相关系数的决策树优化算法的时间较长;但在分类精度方面,基于相关系数的决策树优化算法则更显优势。最后将提出的两种ID3优化算法应用于酒店客房续费问题中,并在Visual Studio 2013上用C++语言分别将其实现。将酒店客户基本信息和客户入住后的居住意见整理成样本集合,分别用ID3算法及提出的两种优化算法建立决策树并提取出规则,通过对算法生成结果进行对比分析,表明两种优化后的ID3决策树算法在生成规则上具有更好的实验效果。
其他文献
测量分析对等网络(peer-to-peer networks)拓扑特征是解决P2P优化、网络监管等问题的基础.对等网络是一类大规模、自组织、并且高度动态的复杂网络系统,准确、完整地测量所有
目的探索流式细胞术单种CD分子(CD146)标记法和三种CD分子(CD45CD31CD146)标记法对非小细胞肺癌外周血循环内皮细胞(circulating endothelial cells,CECs)检测效果的影响。方
有机反应方程式的书写能体现学生对有机化学学习的基本能力和素养。但目前高中化学教学中,学生有机化学反应方程式的书写仍存在诸多的问题。作为高中化学教师,应着重分析其本
虎杖为中国传统中草药,已在多种中药制剂中应用,临床用途广泛,含有多种活性药理成分。根据有关文献,对虎杖及其质量控制状况作一综述,为其进一步研究及开发利用提供依据。
根据国内外雨洪资源利用发展现状分析,采用地下储水空间调蓄雨洪资源具有很好的发展前景及应用价值。但是,在具体工程实施上,仍存在一些亟待解决的关键技术问题,包括高效的入
土壤有机碳是碳循环中的关键组成部分,其变化直接影响着碳循环每个环节的收支平衡。本文综述土壤有机碳的测定方法,明确各测定方法优缺点及应用范围,并从施肥、土地利用方式
中央银行会计集中核算系统>的上线运行,对于完善和提高中央银行的金融服务水平,支持货币政策的实施,强化对社会资金流的监测以及加强对资金流动性的风险管理都十分有利.其中
由商业和票房的成功表象,分析影片《煎饼侠》所带来的电影形态区别于传统的新变化,看其中蕴含的指涉电影理论学说本质概念、当下生活与艺术的状态、媒介传播的形式变迁的深层
思想政治教育评价过程是对评价的评价,是提高评价有效性的关键性因素。本文以湖北省高校2010年思想政治教育评价为例,发现目前思想政治教育评价过程中存在着评价主体单一、评