论文部分内容阅读
异构分布式数据流(Heterogeneous Distributed Data Stream)是指相互联系的多个数据流,其数据来自地理上分布的数据源,且各数据源观测不同的属性集。目前,异构分布式数据流的应用越来越广泛(如传感器网络,进程控制等)。从异构分布式数据流中提取知识的能力已变得相当重要。
从异构的分布式数据流中进行知识挖掘是一个重要的研究课题,面临着许多挑战性的问题。首先,把多个节点的数据流传送到中心节点进行数据挖掘可以是一种解决问题的方法,目前的研究尝试这样的思路,从研究角度上对于更加深入地了解分布式数据流的挖掘特点是有意义的。其次,从技术上这种集中式的数据传输是不可行的,数据流的集中式挖掘缺点是显而易见的:由于数据传输量大可能导致通讯问题、由于中心节点的处理数据量大可能导致计算瓶颈等。
本文针对这些问题,提出了两种方法分类异构分布式数据流,即基于BOOSTING的VHDDS分类方法和基于SPRINT的VHDDS分类方法,前者通过BOOSTING技术来识别“hard”数据(即局部难分类数据),局部节点并行学习、更新模式、传输hard数据索引到中心节点;中心节点根据hard数据索引,收集hard数据,更新中心模式。hard数据相对较少,因此该算法能有效分散计算量,降低通讯负载。实验结果表明:我们的算法降低了通信量,整体上具有很高的分类精度。后者采用一种分布式的挖掘架构和分块的方式处理数据流,针对局部站点的每块数据,在中心站点上建立相应的全局分类器。在分类器的训练过程中,各局部站点负责执行属性表分裂,计算各自的局部最佳分裂方案,并将其送往中心站点。中心站点根据局部最佳分裂方案确定当前节点的最终分裂方案,生成相应的决策树节点,并将最终的分裂方案传给局部站点。局部站点与中心站点之间只传输少量用于决策的信息,不需要传输原始数据,从而有效降低了通信负载。