海量时间序列数据处理的关键技术研究

来源 :大连理工大学 | 被引量 : 6次 | 上传用户:jackieWXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,传感器网络、物联网、云数据中心和移动互联网等新技术的快速发展使时间序列数据呈现了爆炸式增长,而时间序列数据具有其他类型数据所不具备的特点。首先,时间序列数据规模非常大,同时又是以数据流的形式源源不断产生,其计算面临着数据流频率高、序列过长和数据量过大而导致响应时间过长的问题;其次,时间序列数据还具有维度高、特征多样化等特点,其索引划分精度和处理效率需进一步提高。在时间序列数据处理平台中还有大量问题需要解决,针对离线批处理、在线计算和数据流实时处理三种典型的大数据处理模式,本文分别选取了基于MapReduce的海量时间序列的相似性连接、基于HBase的时间序列数据的皮尔森相关系数(下文简称"相关系数")估算和实时数据流多连续查询共享三个关键问题进行深入研究;同时针对海量时间序列数据处理平台的Hadoop集群,深入研究了集群网络调度问题。具体创新如下:(1)针对海量时间序列的相似性连接问题,基于MapReduce提出了索引结构相似性连接树SJT(Similarity Join Tree)。SJT可以通过结点之间的位置关系记录分区阶段产生的计算量,在Reduce阶段利用这些已有的计算量剪枝大量精算阶段的计算量,以提高计算效率;为保证分区负载均衡,扩展F-M(Fiduccia-Mattheyse)算法,设计了基于SJT的图分区算法,该方法可以保证分区之间传输的数据量最小。实验证明,提出的方法优于当前的最好的方法ClusterJoin和MAPSS。(2)为了提高在HBase上实时计算长时间序列相关系数的效率,提出了一种相关系数上下界的快速估计算法DCE。为了进一步减少I/O代价,对DCE算法进行扩展,提出了 ADCE算法,该算法通过维护一种多层摘要数据,能够通过迭代对相关系数进行估计。实验证明,提出的算法能够快速计算长时间序列(如:108、1010的长度)的相关系数。(3)针对实时数据流聚集运算,提出基于窗口的多连续查询的协同聚集模型,可以在窗口中实现结果共享,以避免重复的聚集操作。已有的聚集共享方法往往受到窗口步长限制,而本文提出的多连续查询环境下基于步长和结果的窗口重用机制,可以通过一系列逐渐减少的多值来简化聚集过程,每一步都缩减操作步骤,并完成结果共享。提出了 feed语义来标准化共享全过程,并提出compose-and-declare框架来处理数据共享逻辑。实验证明,提出的方法比当前的最好方法TriWeave性能有所提升。(4)为了减少时间序列数据处理作业的完成时间,基于Hadoop集群,通过实时监控并获取应用层的网络流信息,提出了基于作业的优先级调度方法。提出Flow-based和Spray两种利用等价多路径的方法,并在Fat-Tree拓扑中实现负载均衡。实验证明,提出的调度方法可以提升shuffle阶段作业执行效率,尤其是减少了最高优先级作业的网络传输时间。
其他文献
一所大学就是一个社会意义上高度综合的生物有机体。作为这一生物有机体的栖息地的校园应是功能完备的、适于居住的,但更应是能够赋予学者以灵感,并在其中有效地进行创造、学
目的检测志贺菌对喹诺酮类抗菌药物的耐药情况,探讨染色体介导DNA旋转酶和拓扑异构酶Ⅳ基因突变存在与志贺菌喹诺酮类药物耐药性的相关性。方法用琼脂稀释法对60株志贺菌进行
胶原蛋白作为生物体内的重要蛋白质之一,主要存在于动物的骨骼和皮肤中。胶原蛋白只有降解成小分子的多肽和氨基酸时,才能被人体吸收。将胶原蛋白经酶分解成胶原多肽后,则很
目的分析持续气道正压通气(CPAP)对混合性睡眠呼吸暂停(CSAS)患者治疗效果的影响。方法选择2014年1月至2016年12月收治的42例CSAS患者,按照随机数字表法将其分为对照组与试验
'予所收蓄,不必终予身为予有,但使永存吾土,世传有绪,是则予为是录之所愿也。'这是大收藏家张伯驹先生在其自撰《丛碧书画录》[1]中的一段话,也是对自己一生收藏的感
财务分析是依据企业会计信息及有关报表等相关资料,依据一定的分析方法和步骤,运用一定的分析框架、财务指标等工具,对企业的财务状况、经营成果进行分析,结合战略目标等为企
同时履行抗辩权是合同法的重要制度之一,其立法目的是维护当事人之间的权利,维护交易秩序。虽然《合同法》对同时履行抗辩权作出一定的规定,但在程序上的配套制度不完善、现
<正>天下大事起于细节,细节的小疏忽,可能导致工作的大失误。防止手机泄密,以规范管理消除安全隐患,为国家安全筑牢保密防线。手机给人们生活、学习和工作带来了便利,但同时
目的分析阻塞性睡眠呼吸暂停低通气综合征(obstructive sleep apnea-hypopnea syndrome,OSAHS)病情减轻与加重的影响因素。方法采用Pearson相关系数分析2013年1月至2015年1月本
活动化教学是以学生为主体,落实语文课程主体性、实践性,让学生亲历学习活动,让语文学习真正发生的学习形式。开展语文活动化教学,一方面是从学习目标出发,丰富学习方式,改变