海量时间序列数据处理的关键技术研究

来源 :大连理工大学 | 被引量 : 6次 | 上传用户：jackieWXM

【摘要】

：

近年来,传感器网络、物联网、云数据中心和移动互联网等新技术的快速发展使时间序列数据呈现了爆炸式增长,而时间序列数据具有其他类型数据所不具备的特点。首先,时间序列数

【作者】

：

刘文

【出处】

：

大连理工大学

【发表日期】

：

2017年01期

【关键词】

：

时间序列数据处理数据流聚集相似性查询相关系数网络调度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,传感器网络、物联网、云数据中心和移动互联网等新技术的快速发展使时间序列数据呈现了爆炸式增长,而时间序列数据具有其他类型数据所不具备的特点。首先,时间序列数据规模非常大,同时又是以数据流的形式源源不断产生,其计算面临着数据流频率高、序列过长和数据量过大而导致响应时间过长的问题;其次,时间序列数据还具有维度高、特征多样化等特点,其索引划分精度和处理效率需进一步提高。在时间序列数据处理平台中还有大量问题需要解决,针对离线批处理、在线计算和数据流实时处理三种典型的大数据处理模式,本文分别选取了基于MapReduce的海量时间序列的相似性连接、基于HBase的时间序列数据的皮尔森相关系数(下文简称"相关系数")估算和实时数据流多连续查询共享三个关键问题进行深入研究;同时针对海量时间序列数据处理平台的Hadoop集群,深入研究了集群网络调度问题。具体创新如下:(1)针对海量时间序列的相似性连接问题,基于MapReduce提出了索引结构相似性连接树SJT(Similarity Join Tree)。SJT可以通过结点之间的位置关系记录分区阶段产生的计算量,在Reduce阶段利用这些已有的计算量剪枝大量精算阶段的计算量,以提高计算效率;为保证分区负载均衡,扩展F-M(Fiduccia-Mattheyse)算法,设计了基于SJT的图分区算法,该方法可以保证分区之间传输的数据量最小。实验证明,提出的方法优于当前的最好的方法ClusterJoin和MAPSS。(2)为了提高在HBase上实时计算长时间序列相关系数的效率,提出了一种相关系数上下界的快速估计算法DCE。为了进一步减少I/O代价,对DCE算法进行扩展,提出了 ADCE算法,该算法通过维护一种多层摘要数据,能够通过迭代对相关系数进行估计。实验证明,提出的算法能够快速计算长时间序列(如:108、1010的长度)的相关系数。(3)针对实时数据流聚集运算,提出基于窗口的多连续查询的协同聚集模型,可以在窗口中实现结果共享,以避免重复的聚集操作。已有的聚集共享方法往往受到窗口步长限制,而本文提出的多连续查询环境下基于步长和结果的窗口重用机制,可以通过一系列逐渐减少的多值来简化聚集过程,每一步都缩减操作步骤,并完成结果共享。提出了 feed语义来标准化共享全过程,并提出compose-and-declare框架来处理数据共享逻辑。实验证明,提出的方法比当前的最好方法TriWeave性能有所提升。(4)为了减少时间序列数据处理作业的完成时间,基于Hadoop集群,通过实时监控并获取应用层的网络流信息,提出了基于作业的优先级调度方法。提出Flow-based和Spray两种利用等价多路径的方法,并在Fat-Tree拓扑中实现负载均衡。实验证明,提出的调度方法可以提升shuffle阶段作业执行效率,尤其是减少了最高优先级作业的网络传输时间。

其他文献

论泛生态化校园规划

一所大学就是一个社会意义上高度综合的生物有机体。作为这一生物有机体的栖息地的校园应是功能完备的、适于居住的,但更应是能够赋予学者以灵感,并在其中有效地进行创造、学

期刊

泛生态化校园校园规划生态环境

志贺菌对喹诺酮类抗菌药物耐药性及耐药机制研究

目的检测志贺菌对喹诺酮类抗菌药物的耐药情况,探讨染色体介导DNA旋转酶和拓扑异构酶Ⅳ基因突变存在与志贺菌喹诺酮类药物耐药性的相关性。方法用琼脂稀释法对60株志贺菌进行

期刊

志贺菌喹诺酮类药物耐药基因型

海洋微生物源胶原蛋白酶等酶系的研究

胶原蛋白作为生物体内的重要蛋白质之一,主要存在于动物的骨骼和皮肤中。胶原蛋白只有降解成小分子的多肽和氨基酸时,才能被人体吸收。将胶原蛋白经酶分解成胶原多肽后,则很

学位

胶原蛋白酶胶原蛋白酶系酶学性质

持续气道正压通气对混合性睡眠呼吸暂停患者治疗效果的影响

目的分析持续气道正压通气(CPAP)对混合性睡眠呼吸暂停(CSAS)患者治疗效果的影响。方法选择2014年1月至2016年12月收治的42例CSAS患者,按照随机数字表法将其分为对照组与试验

期刊

持续气道正压通气混合性睡眠呼吸暂停疗效

盐业银行的艺术品质押与张伯驹的书画收藏

'予所收蓄,不必终予身为予有,但使永存吾土,世传有绪,是则予为是录之所愿也。'这是大收藏家张伯驹先生在其自撰《丛碧书画录》[1]中的一段话,也是对自己一生收藏的感

期刊

艺术品质押融资书画收藏张伯驹盐业银行

企业财务分析存在的问题及对策思考

财务分析是依据企业会计信息及有关报表等相关资料,依据一定的分析方法和步骤,运用一定的分析框架、财务指标等工具,对企业的财务状况、经营成果进行分析,结合战略目标等为企

期刊

财务分析发展能力业财融合

论同时履行抗辩权

同时履行抗辩权是合同法的重要制度之一,其立法目的是维护当事人之间的权利,维护交易秩序。虽然《合同法》对同时履行抗辩权作出一定的规定,但在程序上的配套制度不完善、现

期刊

同时履行抗辩权同时履行与反诉同时履行抗辩判决

从手机泄密看规范管理

<正>天下大事起于细节,细节的小疏忽,可能导致工作的大失误。防止手机泄密,以规范管理消除安全隐患,为国家安全筑牢保密防线。手机给人们生活、学习和工作带来了便利,但同时

期刊

保密检查保密工作高度重视保密管理保密教育涉密人员

OSAHS患者病情程度影响因素分析

目的分析阻塞性睡眠呼吸暂停低通气综合征（obstructive sleep apnea-hypopnea syndrome,OSAHS）病情减轻与加重的影响因素。方法采用Pearson相关系数分析2013年1月至2015年1月本

期刊

阻塞性睡眠呼吸暂停低通气综合征肺动脉高压血管内皮生长因子心脏结构异常

活动化教学：让语文学习真正发生

活动化教学是以学生为主体,落实语文课程主体性、实践性,让学生亲历学习活动,让语文学习真正发生的学习形式。开展语文活动化教学,一方面是从学习目标出发,丰富学习方式,改变

期刊

小学语文活动化教学语文学习学习活动

海量时间序列数据处理的关键技术研究

其他学术论文