数据挖掘中决策树分类算法研究与应用

被引量 : 0次 | 上传用户:tianzhiyou258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。本文以决策树为研究对象,主要研究内容有:(1)引入了一种新的降维方法:先对所有条件属性进行重要性排序,再利用神经网络不需先验知识的“黑箱”分类特点,及其分类效能高的优势,对属性进行裁减,选择出对数据分类最有效的若干基本属性,从而达到降维的效果;(2)提出了加权二分查找算法进行连续属性离散化,该方法克服了传统二分查找方法单纯划分区域,容易陷入局部最大的缺点,且相对简单,易于实现,效率高;(3)改进了传统的基于信息熵的属性选择标准,在选择测试属性生成决策树时,克服了ID3和C4.5算法选择测试属性时的偏向问题,计算量小,运行时间短,提高了决策树分类器的分类效率;(4)基于以上三方面工作,对传统决策树进行优化整合,分析了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。(5)将上述算法应用于一个图像数据挖掘系统,对从图像中提取的特征数据进行训练,生成决策树后,对新特征数据进行分类,透明度高,可移植性强,效果较好。本项研究得到了“十一五”国家科技支撑计划重点项目“综合风险防范(IRG)关键技术研究与示范”(2006BAD20802)的支持。
其他文献
中子属于高传能线密度电离辐射,能产生比κ射线更为严重的放射损伤,肠上皮对中子辐射高度敏感,迄今未见有关中子辐射致肠上皮细胞损伤中PI3K对NF-κB信号通路调控的研究报道.
在经济全球化和信息化的浪潮中,现代的物流业已经成为以现代科技、管理和信息技术为支柱的综合物流系统。物流配送是物流企业增加利润的关键所在,而车辆调度问题是物流配送的核
目的:探索研究专职化分层护理对于急性心力衰竭患者急救的作用效果。方法:将我院2015年1-12月收治的180例急性心力衰竭患者作为研究对象,随机等分为观察组与对照组,对照组予以
高中数学"导研式教学"是指学生在教师提供的认知策略、探究支架指导下,通过独立探究或合作探究自主提出问题、自主解决问题、自主拓展问题、自主内化反思,掌握活的、充满智慧
【正】 在纪念德国伟大诗人兼思想家歌德逝世150周年之际,董问樵先生为我们献上《浮士德》新译本(复旦大学出版社出版)。早在新译《浮士德》出版之前,我曾先睹为快,陆续读过
一位媒体同行加入了一个特殊的聊天群,里面聚集了全国各地遭遇家暴而求助无门的女性。群里诉说的都是伤心事。$$小N来自河南,22岁,女儿出生后,丈夫开始施暴。她被关在小屋内,用皮
报纸
以鲜牛乳和蒲公英汁为主要原料,添加蔗糖,经杀菌、接种保加利亚乳杆菌和嗜热链球菌为发酵剂。采用5因素4水平L16(45)正交试验,获得了制作蒲公英酸奶的最佳工艺参数:在鲜牛乳
【正】 二十一年十一月八日下午由镇乘车至新丰,转黄墟,是晚即与试验区主任宋紫云先生助理殷秋宾先生等举行谈话会,决定视察程序。九日早即偕同宋先生开始视察,直至十日为止
期刊
随着国际化进程的加速,培养具有扎实的语言基本功、专业知识和跨文化交际能力的复合型人才已成为我国高等教育的重要目标,这就要求大学英语教学必须将语言与专业知识相结合,
生死问题是人类的永恒主题,也是中国传统伦理思想的重要内容。中国传统生死观有其深厚的社会依据和哲学基础。对生命的关切、对死亡的独到理解、对生死与人生价值实现的关注构