基于Spark Streaming的数据流聚类算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：storm030

【摘要】

：

随着计算机网络和信息技术的迅猛发展,数据流已成为网络监测、金融分析、医学研究等应用领域的主要数据模型。在实时、有序和海量无限的数据流中快速准确的挖掘出有价值的信

【作者】

：

支天记

【出处】

：

武汉理工大学

【发表日期】

：

2016年01期

【关键词】

：

数据流 Spark Streaming CluStream算法 D-Stream算法并行处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络和信息技术的迅猛发展,数据流已成为网络监测、金融分析、医学研究等应用领域的主要数据模型。在实时、有序和海量无限的数据流中快速准确的挖掘出有价值的信息具有着重要的现实意义。为提升数据流处理时的效率和吞吐量,分布式流处理系统应运而生。在众多分布式流处理系统中,新兴的Spark Streaming系统凭借着准实时性、吞吐量高的特点在数据流处理中得到了切实有效的应用。为了适应海量数据流在聚类挖掘上的需求,本文对基于双层架构的CluStream算法和基于网格密度的D-Stream算法进行优化,同时在Spark Streaming系统下进行并行化改造。本文的具体工作内容如下:1)针对CluStream算法的不足,提出了改进算法FCPCluStream。针对CluStream算法在线微聚类时,其微簇结构不能实时反映数据流演化特性等问题,本文引入衰减时间因子,以减少历史数据对微簇的影响,并对聚类中心、聚类距离进行改进,同时优化金字塔时间存储模型。针对CluStream算法离线宏聚类时,其微簇合并时需用户提供类簇数目k且初始聚类中心随机选取,导致聚类质量较低的问题,本文引入Canopy算法进行类簇数目k和初始聚类中心的确定,并利用Canopy-KMeans算法进行离线宏聚类优化处理。在上述改进基础上,提出了算法FCPCluStream。2)基于Spark Streaming模型,对FCPCluStream算法进行并行化设计,提高其执行效率。针对Spark Streaming模型特点,设计FCPCluStream算法的并行化总体架构。在线微聚类阶段,对微簇初始化和微簇实时更新进行map过程设计;离线宏聚类阶段,对基于Canopy-KMeans的微簇合并算法进行map、combine、reduce过程设计。3)研究了流聚类算法D-Stream,基于Spark Streaming模型特点,提出负载均衡的网格分区自适应调整方法,同时对其进行并行化设计,提高执行效率。在对D-Stream进行并行化处理时,针对空间网格均匀分区会导致各节点负载失衡的不足,本文提出负载均衡的网格分区自适应调整算法。同时,对在线阶段网格映射和离线阶段局部簇调整分别进行map过程设计,并设计出全局簇合并方法。4)设计实验方案,测试了Spark Streaming平台下聚类算法的各项性能。构建Spark+YARN平台,利用KDD CUP1999网络入侵数据,分别在聚类质量和集群加速比方面,对本文提出的改进及并行化算法进行测试。结果表明,算法的优化以及基于Spark Streaming的并行化处理具有可行性及有效性。

其他文献

新疆克孜尔水库异重流排沙影响因素研究

异重流排沙是水库"蓄清排浑"的重要排沙方式,针对新疆克孜尔水库这种山区性高含沙大库盘水库,文章根据异重流运动特性和多种经验公式,结合水库历年运行情况和排沙资料,剖析可

期刊

异重流克孜尔水库库水位含沙量

做父亲的老师

男孩的家在大山深处的一个村寨里,母亲生他时难产死了,男孩一直和父亲相依为命。　　到了上学的年龄,男孩背起书包,每天往返十几里到镇上读书。男孩讨厌学习,和小朋友们在一起,他就像出了笼的鸟儿一样疯不够。两个月下来,第一次两门课测验,男孩得了两个“大鸭蛋”。　　男孩没敢告诉父亲,怕挨打。但两天后,父亲还是知道了这件事,因为很负责任的老师来家访了。在那间破旧的茅草屋里,老师情绪激动地“控诉”着男孩在学校里

期刊

父亲老师男孩小朋友书包读书学习

miR-29a-3p对巨噬细胞抗结核分枝杆菌感染作用的研究

目的:结核病(Tuberculosis,TB)是危害人类呼吸道传染病之一,其致病菌-结核分枝杆菌(Mycobacterium tuberculosis,MTB)在进入肺部后被肺泡内细胞所吞噬,由宿主的第一道防线吞

学位

微小RNA巨噬细胞荧光定量PCR机制

成都秋冬季“干”气溶胶等效复折射率特征研究

“干”气溶胶等效复折射率是表征气溶胶光学特性的重要参数,又是大气能见度预报不确定性的重要来源,相关研究具有重要的理论意义和应用价值。为此本文利用成都地区2017年9月至12月AURORA 3000型浊度计和AE-31型黑碳检测仪的逐时观测资料及GRIMM180环境颗粒物分析仪的监测资料,结合同时次的环境气象监测数据,对研究区域的大气消光系数及其组成、“干”气溶胶等效复折射率的反演算法、变化特征以及

学位

消光系数“干”气溶胶等效复折射率免疫进化算法相关性

幼儿园数学集体教学活动中游戏教学研究

随着我国教育水平的不断发展,学前教育受到的关注度越来越高。幼儿园应以游戏作为幼儿的基本活动,将教学与游戏相结合,能够有效激发幼儿的学习动机。而数学是具有抽象性、逻辑性的学科,更应该以游戏的方式进行教学,让幼儿在轻松愉快的情境中获得数学经验。因此本文以幼儿园数学集体教学活动中的游戏教学为切入点进行研究。本研究聚焦于某幼儿园数学集体教学活动中游戏教学存在的问题与成因,并对如何改进实施效果进行一些尝试性

学位

幼儿园数学教育集体教学活动游戏教学

新媒体环境下高校思想政治理论课互动式教学研究

近年来,随着新媒体的迅猛发展和广泛运用,在新媒体环境下发展高校思想政治理论课互动式教学的理论价值和实践价值越发凸显。而如何认识新媒体对高校思想政治理论课互动式教学的影响、如何在新媒体环境下提升高校思想政治理论课互动式教学的实效性等问题也越来越值得研究。本文以马克思主义理论为指导,通过文献研究法、比较分析法、问卷调查法和总结归纳法,比较系统地对新媒体环境下高校思想政治理论课互动式教学的应用现状、问题

学位

互动式教学思想政治理论课新媒体高校

基于Spark Streaming的数据流聚类算法研究

与本文相关的学术论文