多维数据流聚类算法的分析与实现

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:pingzidege
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的逐步成熟和信息社会需求的提高,人们需要在日益庞大的信息中发现对决策有用的知识,数据挖掘作为一门新兴的交叉学科应运而生;随着信息技术的高速发展和互联网逐渐深入和广泛的应用,人们所面对的信息越来越多地包含以流的形式产生的数据,数据挖掘不仅仅需要处理存放在数据库中的那些“过时”的静态数据,而且面对着一种新的数据形式——在线实时数据流。数据流是由一系列连续且有序的数据组成的序列,具有数据量无限、到达速度快、不可再现等特点。因此,如何有效地处理数据流,成为数据挖掘面临的新挑战,也得到这一研究领域的广泛关注。由于存储空间的有限性与数据流的无限性,使得存储数据流中的全部数据以提供精确的挖掘结果是不实际的。因此,在数据流处理模型中,数据流挖掘算法只存储数据流的概要信息,并随着流中数据不断到来,不断更新流概要,同时根据用户的查询要求,利用所维护的数据流概要信息,为用户提供近似的查询结果。数据挖掘中聚类分析是一个重要的课题,并在数据挖掘的发展趋势中发挥着重要的作用。数据挖掘技术是面向应用的,它最终需要应用到现实世界中的数据上,而真实数据往往具备许多属性,这就造成数据挖掘所处理的往往是多维数的数据。针对数据的多维性,不同的聚类算法采取了不同的处理技术。针对多维数据流的聚类算法必须满足更高的要求,在处理多维数数据的同时,还要保证算法的时间、空间效率以适应数据流。对此,本文主要进行具有多维数的数据流环境下的聚类分析方法的研究,研究内容可概括为以下三个方面:(1)针对多维数据流的特点,探讨了数据流挖掘中的窗口机制,分析了典型的多维数据流聚类算法Cell Tree算法的优缺点,提出了一种新的内存模型结构LIST TREE。(2)基于数据结构LIST TREE提出一种新的多维数据流聚类算法LTC,并利用多线程编程方法极大程度地模拟在线处理数据流,以检验新算法。(3)对Cell Tree算法和LTC算法进行了对比实验,通过对实验结果详细全面的比较,分析了这两个算法的效率和聚类效果。实验表明,LTC算法不仅对数据流具有良好的适应性,而且比Cell Tree算法具有更高的时间、空间效率,并且达到了更好的聚类效果。因此,LTC算法在数据流挖掘领域具有重要的研究价值和意义。
其他文献
人脸作为计算机视觉领域重要研究对象,近年来一直是研究的热点。随着多媒体技术的日益发展,人们对人脸图像的质量提出了更高的要求。更换传感器势必增加成本,而且在硬件上受
样条与可加细函数被广泛地应用于微分方程数值解、计算机辅助几何设计(CAGD)及小波分析等领域。20世纪80—90年代以来,随着小波分析理论的日趋成熟和广泛应用,构造小波过程中
互联网和手机的广泛普及使人们越来越依赖于这些媒介提供的信息,而这类信息大部分是以短文本形式存放的,因此人们对短文本过滤技术要求越来越高。传统的过滤技术仅仅实现关键字
无线传感器网络就是由部署在监测区域内大量的微型传感器节点通过无线通信形成的一个自组织网络系统,通过协作感知、收集监测对象的信息发送给基站。随着无线传感器网络技术
基于构件的软件开发作为一种新的软件开发方式在软件开发过程中得到了广泛的使用。该方法通过对已有构件的组装来开发新的应用软件,而应用软件的功能是通过其内部组成构件之
基于文本的SIP(信令初始化协议,Session Initiation Protocol)消息过大,严重浪费了宝贵的无线带宽资源,还大大地延长了会话建立所需要的时间。因此,IETF(互联网工程工作组,Interne
随着多媒体技术、视频压缩编码技术、网络通信技术的发展,嵌入式流媒体服务器已经成为了当今视频应用领域中的一个研究热点,在监控和其他视频服务领域有着广泛的应用前景。目
在经济全球化和信息技术飞速发展的今日,行业规模和企业数量不断上升,竞争日益激烈,如何利用信息系统为当前企业中各方人员提供更具针对性和专业化的服务,满足他们在统计、分析、
无线传感器网络是由部署在监测区域内大量的微型传感器节点(以下称节点)组成,通过无线通信方式形成的一个多跳自组织网络系统,从而协作地感知、采集和处理网络覆盖区域中感知
近几年来计算机病毒、木马数量成指数增长,泛滥成灾,严重威胁着网络安全。病毒从原来简单的破坏系统快速的蜕变到不法分子窃取用户虚拟财产的工具。计算机病毒制造的模块化、