异构分布式数据流分类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ming2331
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异构分布式数据流(Heterogeneous Distributed Data Stream)是指相互联系的多个数据流,其数据来自地理上分布的数据源,且各数据源观测不同的属性集。目前,异构分布式数据流的应用越来越广泛(如传感器网络,进程控制等)。从异构分布式数据流中提取知识的能力已变得相当重要。   从异构的分布式数据流中进行知识挖掘是一个重要的研究课题,面临着许多挑战性的问题。首先,把多个节点的数据流传送到中心节点进行数据挖掘可以是一种解决问题的方法,目前的研究尝试这样的思路,从研究角度上对于更加深入地了解分布式数据流的挖掘特点是有意义的。其次,从技术上这种集中式的数据传输是不可行的,数据流的集中式挖掘缺点是显而易见的:由于数据传输量大可能导致通讯问题、由于中心节点的处理数据量大可能导致计算瓶颈等。   本文针对这些问题,提出了两种方法分类异构分布式数据流,即基于BOOSTING的VHDDS分类方法和基于SPRINT的VHDDS分类方法,前者通过BOOSTING技术来识别“hard”数据(即局部难分类数据),局部节点并行学习、更新模式、传输hard数据索引到中心节点;中心节点根据hard数据索引,收集hard数据,更新中心模式。hard数据相对较少,因此该算法能有效分散计算量,降低通讯负载。实验结果表明:我们的算法降低了通信量,整体上具有很高的分类精度。后者采用一种分布式的挖掘架构和分块的方式处理数据流,针对局部站点的每块数据,在中心站点上建立相应的全局分类器。在分类器的训练过程中,各局部站点负责执行属性表分裂,计算各自的局部最佳分裂方案,并将其送往中心站点。中心站点根据局部最佳分裂方案确定当前节点的最终分裂方案,生成相应的决策树节点,并将最终的分裂方案传给局部站点。局部站点与中心站点之间只传输少量用于决策的信息,不需要传输原始数据,从而有效降低了通信负载。
其他文献
纺织业是我国国民经济的传统支柱产业,也是国际竞争优势比较明显的一类制造业。伴随着经济全球化趋势的加强和现代信息技术的发展,我国纺织行业在迎来新机遇的同时,也面临着很多
现今人脸识别多数算法都是针对二维灰度图像提出的,对于彩色人脸进行识别时,常用的途径之一就是先把彩色图像转换成灰度图像再进行识别。这种转换其实丢失了人脸图像中的彩色
学位
计算机和网络的广泛应用给人们的工作与生活带来了极大便利,但也充斥着隐患与危险。如何保障及加强信息安全性,保证电子信息的完整性已成为普遍关心的重大问题,这样数字签名
学位
H.264/AVC由是国际电信联盟ITU-T和国际标准化组织ISO/IEC联合提出的新一代国际视频编码标准。和原先视频编码标准相比,H.264/AVC采用了许多先进的技术,包括多参考帧、4×4整
学位
在网络信息时代中,信息量庞大,且信息模式多样。XML作为兼具可扩展性及灵活性的通用数据传输格式,越来越多地被人们用来表示异构数据,以克服多数据源的不一致性,从而达到信息整合
学位
无线传感器网络(Wireless Sensor Network,WSN)是近年来得到迅速发展和普遍重视的新型无线网络技术,被广泛的应用在军事,商业,医疗,环境等领域。   在无线传感器网络中,由于传感
静态数据的存储安全是信息安全领域的重要问题。设备丢失、内部窃取、外部入侵以及恶意程序等安全威胁不断向存储安全提出挑战。现有的安全存储技术主要是通过数据加密和身份
学位
伴随着我国经济的快速发展,我国的住房公积金制度也取得了较快发展。作为我国住房体制改革的产品,随着城镇住房消费的日益升级,改善居民住房条件的需求越发迫切,住房公积金的
学位
统计学习理论(StatisticalLeaningTheory,SLT)是针对小样本情况的机器学习理论,其核心思想是通过控制学习机器的复杂度来实现对学习机器泛化能力的控制。在这一理论基础上发
学位
随着计算机技术的不断发展,计算机动画技术已经广泛应用于工程、科研、文娱等众多领域。中科院陆汝钤院士于上世纪90年代提出的全过程计算机辅助自动生成动画技术将人工智能技
学位