面向流数据的聚类算法改进及其服务化实现

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:m1598745
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业信息化和传感器网络的飞速发展,在网络监控、工业控制、股票交易、互联网通信等诸多领域中产生了连续到达、实时变化的数据流。规模巨大的流数据中蕴含了大量的价值信息,数据挖掘技术因为能够发现海量数据中的有效信息而成为流数据领域的热点研究对象。其中,实时流数据上的聚类分析是数据挖掘中的主要热点之一。通过聚类可以将数据集合分割为几个称为簇或者类别的子集,使同一簇中的对象具有尽可能大的相似性,不同簇的对象具有尽可能大的相异性。通过聚类分析对数据集合进行合理划分,有助于识别流数据群组中隐含的模式信息,异常数据和波动事件等等。Clu Stream算法提出一种在单遍扫描流数据时的两阶段聚类框架,在线更新阶段使用微簇快照存储聚类概要信息,并在离线分析阶段使用金字塔时间框架响应不同粒度的聚类请求。但是其在窗口划分和簇结构更新时没有考虑历史数据的影响,无法体现新旧数据的重要性差异。同时其固定的微簇总数也导致其在处理类簇特征演化上存在一定缺陷,没有及时反映类簇的分裂融合等情况。本文通过提出一种基于Clu Stream的聚类改进算法,在有效识别新旧不同类簇的同时提升原算法的准确度和性能,并提出一种针对流数据聚类分析的服务化模式,有效解决流数据挖掘分析的伸缩扩展问题。本文主要研究工作和贡献如下:1.针对Clu Stream没有考虑历史数据影响权重的问题,引入衰减函数,并添加周期性自适应迭代策略,动态调节全局微簇结构,相比原算法,误差平方和降低5%,聚类纯度和轮廓系数也分别有3%和6%的提升。2.针对传统单机式架构下的算法性能问题,本文提出一种基于分布式环境下的流数据实时聚类算法实现,有效提升对大规模数据流的聚类分析性能,系统整体吞吐率提升3倍,缩短总体的挖掘时间。3.通过对流数据聚类的服务化建模,实现一套针对流数据聚类服务的原型系统,能够支持流数据的共享拓展,并提供了服务的组合监控功能。
其他文献
社会网络是研究现实世界的一种分析视角,影响最大化和社区发现的研究已经成为当前研究的热点和关键问题,大量的社会应用使得这些问题的研究变得非常迫切。这些研究有助于成功
研究背景:核酸纳米自组装是指通过设计特定的DNA序列而控制其形成各种纳米结构的新兴技术领域,具有可编程、智能化、无毒、无免疫源性、易被生物降解等特点,拥有较好的生物兼容性,在生物传感、生物荧光成像以及药物递送等领域拥有巨大的应用前景和潜在临床价值。因此,发展DNA纳米材料应用于生物医学领域已经成为目前临床和基础研究的重要方向之一。传统DNA纳米材料通常由镁离子介导自组装,但由于DNA纳米材料自身的
随着智能时代的到来,移动通信的发展也迈进了新的台阶。因此,科学家们在第四代移动通信技术的基础上提出了对第五代(fifthgeneration,5G)移动通信技术的设想。大规模多输入多
地震动输入对进行建筑物及工程场地抗震设防研究具有重大的理论与实际意义,而持时是描述地震动特性的三大参数之一。持时对构筑物和工程场地的非线性地震响应存在显著影响,但目前有关地震动持时的研究相对振幅与频谱的研究较少。本文在国内外地震动持时研究现状的基础上,研究影响显著持时数值的因素,探讨显著持时自身定义的特点;并给出NGA显著持时预测模型,为估计相似地质构造区的显著持时提供参考。论文完成的主要工作如下
随着云服务模式的成熟,涌现了越来越多的云平台,云上提供的服务模式出现多样化的发展。云租户能够以手动或自动的方式动态申请和释放云资源,减少硬件维护的开销,有效降低了运营成本。所以,动态扩展是云平台一个必不可少的能力。那么,从动态分配资源的角度,衡量云平台的能力水平至关重要,有助于云供应商优化云基础设施,以及云租户挑选符合自身应用场景的云平台。从以上的目的出发,本文提出了针对云基础设施层动态扩展能力的
增强现实技术作为信息化时代的一种高效的教学辅助技术,通过将真实环境和虚拟场景的景象叠加,把抽象的、不易于理解的知识概念形象化,给学生营造一种沉浸式的学习环境,达到建
白云鄂博现行选别工艺生产的是氟碳铈矿和独居石的混合稀土精矿,由于氟碳铈矿与独居石的性质不同,导致混合稀土精矿冶金工艺过程相当复杂,并且混合稀土精矿冶炼产生的水浸渣放射性大,需要存储在专用的渣库。如果将这两种稀土矿物分离,不仅可以使稀土冶炼工艺简单化,而且可以减少稀土冶炼过程污染物的排放量,保护环境。稀土精矿主要由氟碳铈矿和独居石这两种稀土矿物组成,杂质矿物为萤石、磷灰石、黄铁矿、磁铁矿和赤铁矿等。
磁铁矿Fe3O4是一种过渡金属氧化物,它有着很多有趣的磁性和输运性质。外延生长的台阶状Fe3O4薄膜的具有俩个非常有趣的特性:反相边界(APBs)和电荷轨道顺序(COO)。在本文中,我们通
五轴数控加工有着加工效率高、精度高、加工范围广等优点,在具有高精度要求的复杂零件上的应用越来越广泛。五轴加工顺利进行的一个重要条件就是保证刀具与被加工件不发生干涉碰撞,而刀轴方向的确定很大程度上被刀轴可行域限制,因此求解刀轴方向的可行区域十分重要。针对当前可行域的求解过程复杂且计算量大耗时长等不足,本文依据加工工艺和几何特性对刀轴可行域的约束,提出了一种优化的刀轴可行域求解算法。然后将可行域的计算
自2006年《企业破产法》修改以来,我国个人征信体系、社会保障制度、财产登记与查控体系等与自然人破产相关的制度逐渐完善。同时,经济发展产生的执行难、创业者自杀、恶意催