多路数据流等值连接中独立元素问题的研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 0次 | 上传用户:BEYONDPEAKER
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、传感器等技术深入到人们生活的各个方面,数据产生的速度越来越快。新数据中隐藏着各种有价值的信息,通过挖掘利用这些信息,给人们的日常生活提供了更多的便利。在很多应用场景中,信息通过数据流的方式提供给用户,通常这些信息带有非常强的时效性,很少存储在传统数据库中,而是必须在生成时进行“即时”处理。此外,由于应用场景的不同,通常每种数据流只提供部分信息,结合多种来源的数据流,获取完整的信息成为势在必行的趋势。在数据流的处理中,连接可以将多个数据流之间的信息进行整合,以获取完整的信息。Spark Streaming是大数据环境下处理流连接的一个系统平台,它根据当前操作父子数据集之间的依赖关系来决定连接的执行顺序。但由于评价的标准单一,对于多路数据流的连接操作只能做出简单的顺序划分,并不能根据各个数据流之间的整体相关性来对数据流连接做出更合理的优化,导致连接的执行效率低下。本文在经过深入研究以及总结相关工作的基础上,对多路数据流的独立元素计数问题展开分析和研究,最后对多路数据流的等值连接进行优化,内容主要有以下几个方面:首先,本文对多个数据流之间的全局相关性进行研究,也就是数据流的独立元素计数的问题研究。通过对多个独立元素计数算法的对比研究,提出了基于汉明范数和连接树的多路数据流等值连接的优化方案。基于汉明范数的独立元素计数方法可以反映出当前滑动窗口中数据流之间的大致相关性,为之后的多路数据流等值连接优化做数据预处理,该部分为后面等值连接优化的基础部分。其次,针对多路数据流等值连接的特点,通过分析多路数据流之间的相关特征,将数据流之间的连接关系转化为无向图模型,根据数据流之间的独立元素交集为图中的各个边赋值,后续再根据图中各个边的值来寻找合适的连接顺序;并将数据流按确定的连接顺序构造为连接树的方式,为了应对数据流中数据持续不断到来的特性,通过对比无向图中边的权值,周期的更新连接树,以此来实现树的动态高效化,更加适应快速持续的数据流处理。最后,本文通过Kafka消息队列生成多个测试数据集,在Spark平台上接收以及处理数据集,执行多路数据流连接操作。从实验结果可以看出,基于独立元素和连接树的策略降低了多路数据流连接约25%的中间结果规模,提升了约16%的连接效率。
其他文献
本论文研究了 NBS(N-溴代丁二酰亚胺)存在条件下无金属参与的底物选择性环化反应,高效构建了两类具有潜在生物活性的杂环化合物。本论文的研究内容主要包含以下两个部分:第一
激子极化激元是半导体激子和微腔光子强耦合而形成的一种新的具有玻色子特性的准粒子。由于其小的有效质量和强的相互作用,理论上,可以在普通低温甚至室温下达到玻色爱因斯坦
本文采用CFD方法对一种催化裂化装置旋流快分系统内部流场进行了模拟研究,深入了解其内部流场特性,系统地考察了相关操作参数对其分离性能的影响,并进行了结构的优化设计研究
Markov过程是随机过程中的重要部分,模糊性是自然界及社会活动中普遍存在的不确定现象,针对模糊Markov过程中λ-截集计算的复杂性,利用模糊结构元理论建模及求解.对于一元模
吐哈盆地在中新生界发现了大量的煤系原油,但随着勘探开发的不断进行,其深层非煤系来源原油的成藏规律和深部源岩有效性的研究日益显得重要。本文据原油物性和生标物组成特征
无证书密码体制与签名和签密相结合所提出的无证书签名、无证书签密方案在信息传输过程中提供信息的认证以及加密认证等功能,继承了基于身份密码体制无需使用公钥证书的特点,又对其密钥托管问题进行改进,广泛地应用到电子支付、密钥管理、智能电网等领域。目前,无证书签名、签密方案还存在一些设计不足,无法满足安全性要求,计算效率不高等问题,其方案的改进过程已成为该领域研究的热点和难点。针对上述问题,分别提出改进的无
随着机器智能化步伐的加快,越来越多的服务型机器人走进千家万户,人们已经不再满足于过去的“一问一答”式虚拟机器人,多功能、高要求的虚拟机器人成为研究的热点。人们在与虚拟机器人交流的过程中,希望得到虚拟机器人的反馈,尤其是情感上的反馈,而反映情感最重要的信息是面部表情。因此,如何给虚拟机器人一个逼真的外形并能够像人类那样自如的做各种表情动作是当前急需解决的问题。具体表现在:首先,如何对虚拟人的嘴唇、眼
随着网络规模日益增大,网络复杂性不断增加,网络的攻击也层出不穷,传统的网络安全防御措施是单一的安全设备各自防御,显然已经无法应对越发严峻的网络安全问题,应该转向融合
随着计算精度需求的提高和计算区域规模的不断扩大,模拟流动传热问题所需周期越来越长,并行算法可以提高计算效率,缩短模拟周期,在实际计算中获得了广泛的关注。GPU(Graphics
熔化极气体保护焊(GMAW)工艺性能优良,广泛地应用于船舶、石油化工等工程领域。实际生产中,从业人员的不规范操作可能导致产品的焊接质量出现波动,因此实现对焊接过程的实时