基于核密度估计理论的多数据流聚类研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:yiluyouyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,处理无限的连续数据流的应用日益流行,比如网络日志、传感器网络等。数据流聚类(datastreamclustering)逐渐成为数据挖掘领域的热点研究问题之一,由于数据流的数据量无限、对算法的响应要求很高,而且通常只能对数据访问一次,而传统的聚类算法对快速变化的数据流进行在线分析的支持存在着很多限制,急需开发适应数据流环境的聚类算法,计算机工作者们面临着新的挑战。 本文针对当前比较经典的多数据流聚类COD(ClusteringonDemand)框架,首先,详细分析了其不足之处:不能过滤独异点、对数据流的压缩保存过于简单和聚类时计算数据流之间的距离的时间复杂度过高等,然后从核密度估计理论和基于数据的空间划分网格技术出发,提出了一种多数据流聚类的方法——CMO(ClusteringMulti-StreamsusingObservematrix)方法。理论和实验结果表明:CMO方法提供了一种不损伤数据流的时间、距离特性的刻画方法;具有过滤独异点的能力;聚类的时间复杂度远小于COD框架和聚类的精度优于COD框架等优点。
其他文献
随着全球经济的不断发展,全球经济一体化和区域经济一体化已经成为世界经济的两大主要趋势,两者既密切相关,又并不相同,共同影响着世界经济发展的潮流。以复杂网络的视角研究世界
本文主要介绍了电磁炉发展,研究了利用HOLTEK盛群半导体股份有限公司生产的A/D型HT46X47单片机开发电磁炉的硬件系统和软件系统。较详细的阐述了功能实现原理、硬件电路设计原
近年来,延迟容忍网络(Delay Tolerant Network, DTN)已经越来越受到更多人的关注,它所应用的领域主要集中在深空网络、卫星网络、陆地移动网络等。由于它与传统的网络不同,具
在如今社会中无线传感器的网络发展的日益迅速,网络中面临的问题也随之愈多,以解决网络吞吐量为目的的方法尤为重要,本文针对目前无线自组网络的发展现状,基于多信道的传输技
最近子串问题(CSP问题)是生物信息学中一个具有广泛应用的NP-难问题。它存在多项式时间近似方案(PTAS算法)。 本文利用参数复杂性理论,证明CSP问题的PTAS算法的计算复杂性
动力系统的现代理论起源于19世纪末关于太阳系的稳定性及演变这一基本问题,主要用于研究演化系统的长期行为。近年来,动力系统引起了学者们越来越大的研究兴趣,相关文献也层出不
本文的研究主要分为两个方面,包括常微分方程周期边值问题在不同情况下的数值解法和椭圆型偏微分方程广义解的存在唯一性的论证。首先,详细地讨论了对于常微分方程的一般周期边
煤矿顶板涌(突)水所造成的淹井或矿难,严重威胁着煤矿的正常开采和矿工的生命安全。为了降低矿井开采过程中潜在的危险性,减少由于煤矿涌(突)水所造成的损失,研究有效的矿井顶板
Web服务技术是一项新兴的网络技术,利用它可以方便地实现应用程序之间的互操作。在Internet电子商务中,通过对Web服务技术的引入,可以更好地提供企业组织之间应用程序功能和业务
电信网是由多厂商各种设备组成的异构网络,随着网络规模的膨胀、复杂度的增加、电信网中更多接口的开放,网络管理系统与被管系统之间的网管接口也越来越复杂。 网管接口是实