【摘 要】
:
对于数据增加迅速的客户行为分析、Web日志分析、网络入侵检测等在线分类系统来说,如何快速准确的适应新增样本是确保其分类正确和持续运行的关键。对于解决这类数据增量问题
论文部分内容阅读
对于数据增加迅速的客户行为分析、Web日志分析、网络入侵检测等在线分类系统来说,如何快速准确的适应新增样本是确保其分类正确和持续运行的关键。对于解决这类数据增量问题,已有的一些增量决策树算法通常需要保存大量的历史样本数据,存储代价昂贵,并且为了保证与传统决策树形式一致,每当获得新样本就要测试调整决策树的结构,而这种调整需要一定的计算代价,不能很好的满足在线分类系统的需要。数据增量问题是比较简单的一种增量问题,现实生活中还可能存在类别增量和属性增量这两种更加复杂的增量问题,传统的一些增量决策树算法往往注重对数据增量问题的研究,而忽略了对后面两种增量问题的解决。在深入研究决策树方法和贝叶斯方法的基础上,针对数据挖掘中三种增量问题各自的特点,将决策树和贝叶斯处理的思想相结合,提出了一种改进的混合分类器算法。该算法综合了决策树方法和贝叶斯方法的优点,既有良好的可解释性,又有良好的增量学习能力。在增量问题发生时,将已经学习得到的模型应用于新增样本,在历史统计信息和新增样本的基础上进行增量式更新学习以及时获取新样本中所包含的知识,保证了分类器的实时性和有效性。在UCI标准数据库中的数据集上将混合分类器算法同已有的决策树算法进行对比实验,结果表明该算法能够较好的解决数据挖掘中出现的增量问题,与重新构造决策树相比,它的时间开销更少,具有更高的分类准确率,从而更加适用于在线分类系统。
其他文献
在经历了多年大规模的网络建设之后,电信运营商眼下都将精力集中于对现有网络资源的整合、业务模式的创新、服务质量的提高和业务流程的优化等关键环节以期实现快速的投资回
随着Internet规模的日益扩大,各种应用以及网络流量迅猛增长,需要网络设备提供更高的带宽和数据分类处理能力。数据包分类技术对于防火墙、入侵检测、Qos、虚拟专用网、流量
颜色是物体最基础、最直接的特征之一,为人们提供了许多有用的信息。然而颜色信息并不鲁棒,图像颜色受到光照、物体、观察者三者共同作用,同一场景在不同光照下往往呈现出不同的
随着用户数量的增加以及用户数据的累积,存储系统中需要存储和管理的数据也将不断增长,系统中数据的组织和管理显得尤为重要。合理的数据组织可提高存储系统的性能,使存储系
人脸的自动识别是模式识别、图像处理、计算机视觉等领域最富有挑战性的课题之一,可以广泛的应用于新一代的身份验证、罪犯识别、场景监控、无接触人机交互以及可视通信等领域
随着计算机网络技术的高速发展和广泛应用,许多科学计算领域,特别是计算密集型和数据密集型应用领域,对广域网环境下海量数字信息分析处理和协同计算能力的要求也越来越高。
对于小样本、少数据、信息不完全和经验缺乏的不确定性问题的解决,用传统的数学建模方法并不太适合,芦苇产量预测就属于此类问题。灰色系统理论在解决贫信息、不确定性问题方
入侵检测作为一个十分有效且重要的主动安全防御技术,长久以来一直是学者热点研究的前沿课题。训练数据的组成和优劣直接决定了分类模型的有效性、精确度和可伸缩性,从而影响
可编程控制器:Programmable Controller,是以微处理机为基础,综合了计算机技术、自动控制技术和通信技术等现代科技而发展起来的一种新型工业自动控制装置,是将计算机技术应