基于分布式流处理系统的分组策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Gwmgdemj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的高速发展,数据价值越来越受到人们的重视。而在许多场合下,数据价值随着时间的推移而快速下降,所以实时的数据流处理在大数据技术中占据了举足轻重的地位。分布式流处理系统作为新兴的数据流实时处理工具在物联网、软件日志处理、社交网络等领域发挥了重要的作用。由于分布式流处理系统的飞速发展,流处理分组策略作为影响系统性能的重要因素之一,受到了越来越多的重视。流处理的分组策略的目标是在较小的开销下通过对分布式流处理系统的并行化处理进行优化,从而有效的减小系统的平均处理延迟和提高系统的吞吐量,提升系统的整体性能。但数据流分布的倾斜性、数据流分布随时间变化的特性、复杂系统的异构性等因素都对现阶段分组策略的研究提出了新的挑战。通过对流应用中下游算子维护状态的内存开销进行分析,本文首先提出了一种基于最小化内存开销的贪心分组算法。该算法使用低内存开销的统计方法获取数据流分布信息,并根据键值的频率进行分类,以减少下游算子维护状态的内存开销。基于键值频率的统计和键值拆分结果,本文通过贪心方法制定全局路由表以保持系统负载的均衡性。另一方面,已有的分组算法较少的考虑系统异构性和数据流分布变化对流分组策略研究的影响。因此,本文提出了一种基于时间感知的键值分组算法。时间感知即为对数据的处理时间和通信时间等进行周期性统计和分析。该算法通过轻量级的统计方法统计近期的数据流分布,并根据每个实例近期的处理状况的相关时间信息使用启发式方法选择当前最优的实例作为分组结果,同时使用时间感知服务器定期感知下游算子的相关时间信息从而实时对算法进行调整。实验表明,本文提出的基于最小化内存开销的贪心分组算法相比于已有的分组算法,在吞吐量上提高了9%,平均处理延迟降低了54%。基于时间感知的键值分组算法相较于已有的分组算法在吞吐量上提高了19%,平均处理延迟降低了59%。同时本文提出的两种分组算法在不同的应用场景下都具有较好的扩展性和稳定性。
其他文献
东天山构造成矿带是我国第二大铜镍硫化物矿床成矿带,铜镍矿大多集中分布在库姆塔格砂垄至图拉尔根一带。近年来随着白鑫滩、路北、月牙湾等矿床的发现,表明该地区铜镍矿的产出范围已经西延出库姆塔格砂垄,向北延伸至了大南湖-头苏泉岛弧带,扩大了铜镍成矿带的规模。本文通过系统的野外地质调查和成矿作用研究,取得的主要认识如下:月牙湾基性杂岩体岩相分异明显,具多期次贯入特点,岩浆的侵位分为三个期次,第一期为辉长岩相
本论文旨在探索合成结构新颖的过渡金属取代的钨氧簇,实验过程中采用水热合成技术,以缺位导向思想为指导。本文根据文献,制备了Na9[A-α-PW9O34]·7H2O、Na10[A-α-SiW9O34]
软件测试往往需要通过完全测试来保证软件系统的质量。然而,现实生活中引起系统发生故障的输入域参数可能有很多,这使得完全测试几乎成为不可能。组合测试是一种输入域测试技
为了深入贯彻《中共中央国务院关于深化教育改革全面推进素质教育的决定》,无锡市滨湖区教育局试行了滨湖区中小学实施学校体育、艺术、科技教育“211”项目指导意见,各学校
近年来酰胺类杀菌剂在我国一些产地的瓜果、蔬菜、烟草中检出率较高,但这类杀菌剂若大量进入环境或人体中,会对环境及人体造成一定影响,因此对其进行检测有必要性。但现行的酰胺类杀菌剂的检测方法存在设备昂贵、检测成本高、检测周期长,且需要专业人士操作等方面的缺点。本文基于分子印迹电化学传感器具有灵敏度高、检出限低、操作简便、制备成本低、应用范围广等方面的优点,对4种不同的酰胺类杀菌剂(甲霜灵、氟吗啉、苯霜灵
近年来,随着科技和信息技术的发展,高维小样本问题和不平衡数据问题越来越受研究者的重视。支持向量机算法是最流行的分类算法之一,由于其分类边界的确定只依赖于部分被称之
近年来,频率选择表面(Frequency selective surface,FSS)在电磁波传输控制领域成为研究热点。FSS是一种周期性的人工电磁结构,对自由空间电磁波有反射、透射、吸收或引导作用
十九大以来,国家提倡多种形式办学,鼓励民办资本建设高校。民办高校由于资金自筹、学生数量逐年减少、公办院校扩招等因素影响,其招生工作面临着巨大挑战。同时,民办学校由于
随着自动驾驶汽车、虚拟现实(VR)等新型实时交互应用的出现,人们对高宽带连接的需求越来越大,而这些新型的实时交互应用也将成为下一代无线技术的催化剂。基于此,已有一大批
班公湖—怒江缝合带以绵延超过2000公里的侏罗纪复理石,混杂岩和蛇绿岩带为特征,代表了中特提斯洋壳的残余部分,记录了中侏罗世—晚白垩世,中特提斯洋的俯冲增生以及随后羌塘地块和拉萨地块碰撞的过程,与其演化相关的岩浆活动和构造变形为冈瓦纳衍生地体向亚洲的拼贴和青藏高原的形成与发展提供了重要的记录数据。木嘎岗日混杂岩分布于班公湖—怒江缝合带内,由多期次韧性变形叠加的中-早侏罗世碎屑岩基质和洋岛蛇绿岩等块