面向属性值遗漏数据决策树分类算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:li21104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。
其他文献
无线射频识别技术(RFID)是物联网的关键技术之一。RFID原始数据的不确定性和海量性严重影响了该项技术的发展。通过对不确定数据特征进行分析,建立了一套分流机制下的RFID数据清洗策略。该清洗策略引入清洗队列的概念,根据清洗节点的判断条件选择最佳的清洗路线,无需遍历清洗系统中的所有清洗节点,从而节省了大量的数据传输和清洗等待时间。实验表明,该策略很好地缓解了数据传输压力,有效地提高了数据清洗的效率
针对稀疏信号恢复的lp优化模型(0〈p≤1),提出了一种可行稳健的增广Lagrange函数优化算法。该算法通过构造精确罚函数的方法,设置有限的增广因子参数,有效地避免了类似于传统FO
聚集签名能够将多个用户对多个信息的签名进行聚集,缩短签名长度,可以应用于电子合同签章、边界网关协议等领域。提出了一种基于证书的高效聚集签名方案,以实现无序聚集和有序聚
为弥补MST经典算法的局限性,开创性地提出了构造MST的"断弦护枝"思想,并基于此思想创造性地设计与实现了一种全新的MST构造算法。实验结果和数学证明表明新算法是正确的;实验和
目前RFID技术在食品跟踪行业的应用成本过高,在一些普通的低成本行业不太适用;提出了一种基于二维码和Internet的低成本技术的食品跟踪、分析、监测的物联网解决方案。通过分析该物联网中二维码、中间件、手机、电脑终端等组成部件,说明了本方案的可行性,其中使用手机识别二维码更为用户提供了莫大的方便;最后得出结果,本方案适用于目前食品跟踪行业的大量应用。
时态跨度是时态断言的重要演算对象,如何有效且准确地计算不同时态粒度刻画下的时态跨度之间的运算结果是一个关键问题。由于时态跨度的非规范特性以及弹性时态粒度的影响,使
随着语义Web研究的发展,其数据量也不断增长,要实现语义Web追求的目标—数据的共享和重用,语义Web上的实体搜索和文档搜索必不可少。而面对这样不断增长的数据以及不同于传统Web
无线网络融合是通信业发展的趋势,其中安全问题是当前研究的关注点。针对以3G网络为核心网络,采用蓝牙、WiMAX和无线局域网为接入网络构成的融合网络中认证协议的安全和效率问
指出了现有Vague集模糊熵定义的不足,分析了其存在不足的根本原因,给出了Vague集模糊熵的公理化定义,提出了一种新的Vague集模糊熵的计算方法,并证明了其合理性和有效性。
在网格计算中,资源或服务使用者和提供者之间的信任关系是安全通信的前提。由于网格计算环境的分布特性和动态特性,像传统计算那样预先建立信任关系是不现实的。为了解决这个问