决策树及增强算法在实际问题中的应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:teer197841
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是机器学习中较为常用的一种算法,是一种强大的分类器。决策树的基本原理是利用树形结构对特征属性以及潜在结果之间的关系建立起的模型。与神经网络,支持向量机不同,利用决策树进行建模后,预测模型容易理解,预测结果容易解释,并且对缺失值及变量的分布不敏感,因此几乎能够在任何类型的数据集上进行建模,被广泛的应用于个人信用评估、医学诊断、自然语言处理等各个领域。在实际问题中拟合模型时,要考虑犯不同类型错误时的代价,并且寻找方法对模型进行优化。在本文中采用决策树拟合模型,主要采用的基本算法为C5.0算法及CART算法,并对每种算法分别加入Boosting增强算法提高模型性能。在传统的比较模型性能时,往往采用的方法为比较模型的准确率或者错误率。但是在实际问题中,比较不同模型的性能时,不能单纯比较模型在测试集上准确率,测试集的选取有一定偶然性,并且只比较模型的准确性对于有犯错代价的问题时,不足以说明模型性能的好坏。因此本文采用模型的灵敏度作为样本,并通过假设检验方法来进行模型的比较。由于各组样本之间不独立,因此在比较多组模型的灵敏度时,采用Friedman非参数假设检验方法来比较模型的性能,检验结果显示各组样本之间存在显著差异。在比较两种模型的性能时,由于样本不独立,但样本均通过正态性检验,因此采用t检验方法进行两两样本之间的比较;两两样本的比较检验结果表明带有代价矩阵的C5.0算法模型灵敏度最优,能够最好的正确分类潜在客户,为银行业务指标的达成,提供最有效的指导。
其他文献
传统砂浆与生土墙材之间普遍存在着由于材料的热膨胀系数不一致、砂浆的干缩率大、粘结强度不足和韧性较差而导致的生土墙和砂浆界面容易出现开裂、空鼓、脱落等问题,为了解决以上问题,更好地保护传统民居,本文从材料的角度出发,在水泥砂浆中添加一定掺量的生土、纤维素醚、可再分散乳胶粉和聚丙烯纤维等外加剂进行了生土墙界面粘结材料的研发。本文的主要工作和获得的重要成果如下:(1)在生土掺量为20%的界面砂浆中,研究
词向量技术可以将文本中的词表示成低维连续的实值向量。在众多训练词向量的技术中,word2vec凭借其高效和易用性脱颖而出。虽然word2vec已经能够生成包含丰富的语义信息的词
随着高速铁路的快速发展,保持线路的平直和平顺尤为重要,桥梁具有独特的优势,使得高速铁路桥梁所占比重不断上升。列车的提速运行与轻型化设计,对桥上列车行车安全与舒适提出了更高要求。车体转向架等动力学性能的好坏是影响车辆运行平稳和安全的关键因素。受沿线不同气候环境、不同地质条件的影响,高速列车在桥上行驶安全性问题十分复杂,其中横风条件下高速列车过桥安全舒适性问题尤为突出。本文围绕桥上列车在横风下行车安全
近年来,复合板技术的逐步成熟引起人们的大量关注,由于其良好的导电、导热、耐腐蚀性,铜/铝复合板被广泛应用于汽车制造、生活用品、电力系统、冶金设备等行业。常见的复合方法有爆炸焊、热轧、铸轧等,在以上复合方法中,复合板界面处会不可避免的产生大量的金属间化合物,由于金属间化合物硬而脆,使得复合板的力学性能大幅下降,因此为了提高其力学性能,亟需研究界面处金属间化合物的生长机制,从而对其进行厚度控制,减少其
随着我国经济的高速发展,输电网络的分布越来越广,其中绝大部分远离城镇且处于地形复杂,自然环境恶劣的地方。电力线及杆塔长期暴露在野外,会受到持续的风吹日晒以及雷击等,导致电缆线材料老化,必须及时进行修复或更换。因此对电缆线的巡检是保障输电网络正常工作的不可或缺的前提条件。目前电力线的巡检主要依靠人工定期实地巡视查看,该方法需消耗大量人力和时间,且人员在自然环境恶劣的野外作业危险性极高,人力成本大且效
当前,国内外形势正在发生深刻复杂变化,经济全球化程度日益加深,国与国之间合作与冲突并存,政治、文化相互影响和渗透。国内社会随着经济市场化的发展凸显层级化,不同阶层的人们的政治、思想观念也随之多元化。借助互联网技术,国内外的思想交汇激荡、泥沙俱下,对我国的意识形态安全带来严重挑战。为了应对这种挑战,2016年12月召开的全国高校思想政治工作会议提出了高校思想政治工作要回归课堂教学主渠道的政治要求,开
背景:近年来,江苏省水痘相关突发公共卫生事件数逐年上升,位居传染病相关的突发公共卫生事件前列。水痘散发和暴发发病数均显著升高,且水痘突破病例比例较高,江苏省水痘疫情日益严重。两剂次水痘疫苗是控制水痘疫情及水痘突破病例最有效手段。目前,关于第二剂次水痘疫苗接种时间优化选择、水痘-带状疱疹病毒(Varicella Zoster Virus,VZV)基因型、疫苗株和野毒株演变等研究较为缺乏,亟待解决。目
在可持续发展为主题的时代背景下,旅游业作为国民经济发展的战略性产业,已成为推动区域社会经济的一个新的发展点。旅游业在刺激经济增长的同时,其发展与经济增长所带来的环境问题却往往被忽略。长此以往,此种重经济效益而轻环境效益的行为势必会造成区域经济、旅游与生态环境系统关系的失衡甚至是脱节。区域经济、旅游业与生态环境三者的协调发展作为可持续发展的重要组成部分,对其演变关系进行分析并揭示其协调发展时空演化规
随着深度学习、个性化推荐技术的发展,递归神经网络(Recurrent Neural Netwo rks,RNN)、卷积神经网络(Convolutional Neural Network,CNN)等深度学习模型因结构简单、理论完
阿奇霉素(AZM)是20世纪80年代末研发的第一个十五元环大环内酯类抗生素,具有抗菌谱广、半衰期长、在酸中稳定、副作用小等优点。AZM现已被广泛用于临床上各种细菌、支原体、衣原体感染的治疗。由于AZM对食源性动物的生长、抗菌、抗癌都起一定的作用,因此它也被广泛用于兽医临床。然而,动物源性食品中残留的AZM会对食品安全和人类健康产生危害,我国已于2005年将AZM列为畜禽禁用兽药。虽然国家明令禁止,