决策树C4.5算法的改进与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:xiaozao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是对大数据集的探索过程,并揭示出其中的隐含规律,它融合了众多的技术,是计算机科学的一个重要分支。其中分类分析是数据挖掘中重要的分析技术之一,分类分析是根据已有数据样本集的特点发现分类规则,构造分类函数或分类器,从而对未知类别的样本赋予类别,以更好的辅助决策。本文以C4.5算法的改进为研究目标,它是最基本的分类算法。该算法的优点是可以处理连续型数值,能够处理不完整的数据,分类准确率高,但是也存在诸多缺点,比如:连续属性离散化占用整个建树过程的大量时间,构造决策树的内部节点时采用局部最优的搜索方式等。本文的工作主要包括以下三个方面,首先对C4.5算法中信息增益率的计算公式进行近似简化,优化了建树过程中属性选择时繁琐的计算过程,省去了耗时的对数运算,改进后的属性选择标准仍然是以信息论为基础,实验证明改进后的算法缩短了分类时间,且分类精度未受到影响;然后改进了连续属性的离散化过程,根据连续属性和类别属性之间的关系形成初始化区间,并基于χ2统计量对相邻区间进行合并,从而减少候选断点,通过两个对比实验证明了算法的有效性和可行性:最后将改进后的算法在Spark平台上进行并行化实现,应用到移动客户的离网预警中,实验验证了本文所提出的改进算法提升了分类准确率,缩短了建树时间。通过对大量移动客户离网信息的分析,针对不同的离网预警指示,为运营商采取针对性的保有活动提供了有力支撑。
其他文献
随着现代生活水平的提高,公众的安全消费意识逐渐增强,整个社会对农产品的安全问题提出了更高的要求。本文针对这一问题,以果品生产链中的质量跟踪和可溯源为目标,采用物联网技术
GBSSL是实现半监督学习的有效途径,其根据数据集构造图,图中节点对应数据集中的数据,边权对应数据间的相似度。采用某种算法将标记节点的标记信息沿着图向未标记节点扩展,以达到
本文介绍了准线性支持向量机的理论,并提出了一种改进的序列最小优化算法来用于准线性支持向量机的训练。准线性支持向量机是具有准线性核函数的支持向量机,通过恰当地调整准线
网络全光化进程的加速以及网络技术的演进,扩展了传统数据业务以外的多业务模式。这些业务对网络数据访问的需求量以每年成倍的速度在增涨,随之而来的网络安全工作成为了前所未
Bagoffeatures方法自从2003年提出以来,在计算机视觉领域特别是图像分类和图像检索上得到了广泛的应用。它将每幅图像的局部特征集合映射成一个视觉词汇频率分布的直方图,使得
在过去的20年里,互联网的迅速发展很大地影响着每个企业的发展以及人们的日常生活。所以,云计算的出现是互联网发展的必然结果。云存储是随着云计算的产生而产生的。云存储将分
随着网络信息化水平的日益提高,企业及组织的各项业务对网络的依赖日趋加深。安全威胁的无孔不入迫使众多的企业、组织机构部署了各种安全产品。传统的安全管理平台(SOC)提供了
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现出来。人们面对众多的信息,常常感到无所适从
随着智能算法的快速发展,其在推荐系统中扮演的角色也越来越重要,智能推荐算法已经成为一个非常活跃的前沿性研究课题。和传统的推荐算法相比较,智能推荐算法具有个性化、精
随着互联网的高速发展,流媒体得到了广泛的应用,也占据了互联网世界大部分的带宽。由于流媒体应用需要有足够的带宽和较高的实时性,传统的客户端服务器模型已经不适合流媒体