【摘 要】
:
C4.5算法作为目前常用的数据挖掘方法,仍存在一些缺陷。针对算法中出现的信息增益率计算复杂的问题,通过数学知识对增益率计算过程进行简化,提高计算效率;针对算法中可能偏袒
【基金项目】
:
国家自然科学基金资助项目(61070139,81460769)
论文部分内容阅读
C4.5算法作为目前常用的数据挖掘方法,仍存在一些缺陷。针对算法中出现的信息增益率计算复杂的问题,通过数学知识对增益率计算过程进行简化,提高计算效率;针对算法中可能偏袒属性值较多的属性的不足,在非类属性进行最佳属性的选择时引入权重这个概念;针对连续属性离散化过程耗时的缺陷,利用边界定理寻找最大信息增益率的候选分裂点,减少计算时间。将改进后的算法应用到葡萄牙某银行挖掘认购存款的潜在用户上,实验结果表明,C4.5改进算法计算量减少,分类准确率也有提高,决策树的生成时间也大大缩减,构建的决策树贴合实际。
其他文献
利用扫描电镜、热失重-红外、元素分析、低温氮吸附等技术和化学手段对聚羧酸基FFC-1离子交换纤维的结构与性能特点等进行了系统研究.结果表明:FFC-1离子交换纤维为含适量酰
不动产统一登记作为规范不动产市场交易,推动社会经济发展的制度保障,具有非常重要的意义。受长期多部门分散登记弊端的影响,不动产统一登记在实施的过程中,面临着种种的挑战
实时CORBA和小型CORBA是许多分布式实时嵌入式系统所依赖的基础,而事件服务能够在分布式环境下,提供有效的灵活的通讯机制。该文结合了实时CORBA与事件服务两者的优点,描述了一
λ-卡拉胶经过有限酸水解得到不同平均分子量的组分,选用平均分子量为21 kDa的组分,作为蛋白质置换层析的置换剂,用于纤维素酶的分离纯化.经过置换层析,使黑色葡萄状穗霉S607
该文章首先定义了锥距离空间定义,并且给出了锥距离空间中的一些性质。最后得出锥距离空间中满足积分型压缩条件多值算子的公共不动点的存在性及唯一性。
由于具备优良的生物相容性及大量可以用于修饰的羟基,交联聚乙烯醇球可以用作医用吸附剂的载体.本文对交联聚乙烯醇球的制备条件进行了详细研究,并讨论了环氧基的固载条件,分
该文研究信号滤波中的频率逼近问题。结合N-过程和加权因子的方法构造一个新的离散测度,讨论此测度的弱*收敛性。由此测度提供了一个内积形式的定义产生的正交多项式序列-Sze
在强酸性条件下,以薄层树脂相吸光光度法测定硅的新方法,本法灵敏度高(ε810=7.3×105L/mol@cm),比水相光度法提高16倍.精密度理想 (测定6.0μg Si 6次,RSD=1.2%).测定了