基于自然邻的在线数据流聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lbxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代数据的重要性越来越高,实时数据采集技术的发展使各个领域在应用过程中都可以获取数据流。气象预测、电子商务、网络安全、视频监控等领域都会产生大量的数据流。在这些领域,对数据流以及相关技术的研究显得至关重要。因数据流总量的无限性,数据流聚类只能对一段连续有限数据集进行挖掘。数据流算法一般是采用滑动窗口、界标窗口和衰减窗口来选定需要挖掘的数据集,采用概要数据结构来维护数据的统计信息,使得挖掘任务可以顺利进行下去。数据流算法也可以被划分为一下四种方法,分别是基于密度的算法、基于网格的算法、基于划分的算法和基于层次的算法。数据流聚类算法存在着参数过多,参数值难以确定的问题。以CluStream算法为代表的两阶段聚类处理算法,无法实时产生聚类结果,后来提出了完全在线处理的CEDAS算法解决了这一问题,但该算法无法自动获取微簇阈值与搜索半径。针对上述数据流存在的问题,本文引入自然邻居算法,自然邻居算法不同于k自然邻算法无需人工输入参数,可以自适应迭代出数据集自然特征值,且考虑了数据的分布情况,在自然邻居算法里,数据分布密集区域的邻居点个数较多,稀疏区域的邻居个数较少。本文通过大量的实验,找到了如何通过自然邻算法的自然特征值确定密度阈值与邻域半径的公式,同时根据观察得到的数据集自然分布的规律,对本文算法微簇中心点搜索半径进行加权处理。通过将自然邻算法引入CEDAS,本文提出了NaN-CEDAS算法。为了验证NaN-CEDAS算法的有效性,本文分别在人工数据集与真实数据流集上对算法的有效性进行了验证。首先采用几组常用的聚类数据集验证了通过自然邻居算法得出的阈值与邻域半径的正确性,实验证明了本文算法根据自然邻算法得出的阈值与邻域半径能正确的将数据集聚类。然后通过两个人工数据流集证明本文算法拥有良好的微簇合并、微簇分离以及快速发现新微簇的能力。最后通过KDDCUP 99网络攻击数据集和英特尔伯克利研究实验室传感器数据流两个真实数据集验证了本文算法应用于实际场景的效果。同CEDAS、DenStream、CluStream算法的对比实验表明,该算法有很好的实验结果。
其他文献
光纤激光器性能优越,应用前景广阔。但是伴随着光纤激光器输出功率的提升,由非线性效应等因素造成的光束质量退化严重制约了光纤激光器的应用。多模光纤激光器受非线性等因素
谱聚类目前已经成为聚类的主要方法之一,但传统谱聚类算法的相似度量方法不能很好地揭示未能完全分离的数据集的真正聚类,而基于共享近邻紧密度的谱聚类算法能够有效地改善该
本文通过光纤光栅传感技术,为实现智能电网系统的在线监测需求进行了光纤光栅解调系统的设计,研发了应用于智能电网温度监测的解调系统,该解调系统具有精度高、体积小、便于
随着全球能源短缺和环境污染问题的不断加剧,绿色化已成为高端装备重要的发展趋势及技术创新领域,是当前的研究热点和技术前沿。节能是绿色化主要研究内容之一,数控机床作为
随着云计算的快速发展和应用,在HPC领域,不少组织和机构也开始着力打造HPC云。在HPC云中,HPC应用的数据需要频繁的在不同节点之间传输,因此通信性能成为超算应用整体性能中一
在科学和工程中,会广泛涉及到冗余度机械臂的运动规划,而冗余度解析问题通常被认为是机械臂控制领域的基础部分。一般的机械臂重复运动规划和障碍物躲避方案几乎都是在设定的
由于现有绝缘设计理论的局限、不利自然环境的侵蚀、工作电压的长期作用、过电压的短时冲击、电介质绝缘性能的不均衡等,高压电气设备的绝缘在现场能否满足设计要求,安全可靠
扫描电化学成像作为电化学的一种研究工具,已经应用到电化学的各个研究方向,并且应用到其它领域之中。而在扫描电化学成像的过程中,拖尾现象的存在使得低分辨率的扫描电化学
现代信号处理越来越趋向于数字化,对模数转换器的要求也越来越高,本文立足实际需求,研究了基于混合滤波器组的多通道采样系统。通过理论分析和模拟仿真的方法分析了多通道结
消费作为拉动GDP增长的“三驾马车”之一,起着拉动内需的重要作用。随着人民生活水平的不断提高,人们无论对物质还是精神方面的消费需求都在不断增大,这些需求的显著增加在整