基于Storm的分布式流数据关联规则挖掘

来源 :江苏大学 | 被引量 : 3次 | 上传用户:fangfang_936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据广泛存在于传感器、网络通信和互联网等领域中,是一组无序、实时到达、无界且连续的数据项。流数据具有实时性、突发性、无限性、无序性以及易失性的特点。流数据的特点决定了无法在数据库中完全存储所有的数据并且需要实时挖掘。因此,有别于传统的静态数据挖掘算法,流数据挖掘算法需要针对流数据的特点做出改进。关联规则挖掘是数据挖掘算法的一种,该算法的目的是挖掘两个项集之间的内在联系。现有的流数据关联规则挖掘算法FP-Stream运行在单个计算机中,性能受限于计算机的配置。如今,流数据产生的速度日益增长,FP-Stream算法的性能已经捉襟见肘。针对这一问题,本文设计了分布式流数据关联规则挖掘算法FP-Storm。另外,本文基于Storm框架设计了分布式流数据关联规则挖掘框架。最后,为了验证所提算法和框架的可用性,设计实现了基于流数据关联规则挖掘的股票推荐原型系统。本文主要做出了如下工作:(1)为了解决现有流数据关联规则算法性能低下的问题,设计了分布式流数据关联规则算法FP-Storm。该算法使用滑动窗口选取并缓存数据,将流数据转换为批次数据进行处理。然后使用划分投影的方法,将批次数据划分到不同的计算节点进行并行挖掘。在各个计算节点中,历史批次数据被存储在前缀树和倾斜时间窗口中,之后对前缀树自底向上遍历并超集检验挖掘频繁项集。最后,汇总并输出各个计算节点的挖掘结果。实验结果表明,该算法有着较好的精确性,并可以有效提升频繁项集的挖掘效率。(2)针对现有流数据关联规则挖掘算法在实现过程中的多数据源集成、挖掘过程实现和挖掘结果实时呈现的问题,设计了分布式流数据关联规则挖掘框架。首先,基于Kafka实现该框架的数据集成模块,并使用分片传输的思想对Kafka的传输机制进行优化。之后,基于Storm实现分布式流数据关联规则算法FP-Storm的挖掘过程。最后,将挖掘结果实时缓存在Redis内存数据库中。该框架可以简化流数据关联规则挖掘的开发过程,方便程序员在其它应用系统中进行移植部署。实验结果表明,优化后的Kafka数据传输速度和稳定性都有一定的提升,提高集群的并发度可以在一定程度上提高本框架的运行效率。(3)为了验证所设计的分布式流数据关联规则挖掘算法和框架的实用性,使用React Native和Spring等技术设计并实现了股票推荐原型系统。该系统通过分析历史股票涨跌规律,实时更新股票间的关联规则,生成股票推荐信息发送给感兴趣的用户。系统客户端界面简介直观,交互方式友好,推荐信息中部分股票间的关联程度较高,验证了所提算法和框架具有一定的实用价值。
其他文献
对深圳市北东向横岗罗湖断裂和北北西向大芬断裂的土壤氡射气(Rn)含量的测量结果表明,两条测线的氡异常曲线均为双峰型,主峰异常值与背景值的比值分别为3.85和3.25。结合野外地
背景:肠道微生物移植疗法,又称粪菌移植(Fecal Microbiota Transplantation,FMT),是一种新的治疗方法。有研究表明FMT对于溃疡性结肠炎(Ulcerative Colitis,UC)没有治疗效果,然而也有研究表明FMT不仅对UC具有治疗效果,且认为这种创新的治疗方式确实有助于UC患者,可使其减轻临床症状并提高生活质量。因此FMT对UC治疗效果尚不明确,尤其是抗生素和
近几年,电子通信技术的迅猛发展和电子产品的快速普及,使得约会虐待从传统的线下方式上升到线上方式,这会对个体的约会关系带来积极和消极的影响。积极的一面为,数字媒体网络
<正>在中国历史的漫长进程中,中国女性的"他者"身份、从属地位持续了较长的时间。在父权制的影响下,女性作家、女性文学、女性意识普遍处于"失声"状态。五四以来,随着西方文
目的:本课题通过观察HIFU治疗小鼠H22肝癌后树突状细胞的变化,探讨HIFU治疗对DC的影响;在此基础上,用HIFU治疗后坏死肝癌组织中的HSP70-肽复合物在体外活化DC,并将与HSP70-肽复合
汽车零部件入厂物流在汽车供应链优化中占有重要地位。文中较为全面地列举了汽车零部件入厂物流模式,并具体分析了国内优秀汽车制造企业——东风本田的入厂物流现状、入厂物
在探索赶黄草口服液的制备工艺基础上,进行赶黄草口服液的质量标准研究。采用第一次加入药材量12倍量的水煎煮2h,第二次加入药材量8倍量的水煎煮1h,过滤,合并滤液浓缩至相对
戏剧语篇是用来表演假拟对话(pseudo-conversations)的文学语篇,可以用处理真实对话的方法去探讨之.这些方法是被创造出来用于艺术目的的言辞列(sequences),而且某些规约和规
随着网络技术的飞速发展,因特网已经成为一种重要的信息获取媒介。但是面对漫无边际的网络,如何迅速地获取我们所要的信息,这是随着网上信息的急剧增长而提出的一个重要问题。
能源的大量消耗和环境的严重污染,迫使人们加快了对新能源开发的步伐。天然气作为一种储量较为丰富、燃烧清洁的燃料,很快成为当前多个行业的主要替代能源,这也推动了天然气