分布式消息系统Kafka的性能建模与优化技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong552
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着云计算、虚拟化、互联网,特别是移动互联网的蓬勃发展,当今社会已经进入大数据时代。面对海量的离线数据和历史数据,Hadoop、MapReduce等相关技术的应用与研究已经比较深入,可以有效进行应对。而随着4G网络的普及,用户数量的激增,机器学习、智能推荐等新概念的提出,以及不断涌现的线上促销、秒杀活动,致使各大互联网企业不得不面对海量实时数据的有效接入问题。不可否认的是,各种消息中间件产品的不断产生和改进,已经基本解决了海量实时数据的接入问题,然而对各种消息中间件如何进行精细化性能建模与优化仍然是工业界和学术界的热点问题。针对上述问题,本文通过对多种消息中间件在国内外的实际应用与研究情况进行了调研、整理和分析,选择了当前主流的分布式消息系统Kafka作为研究对象。通过搭建分布式的Kafka实时数据接入平台,引用了机器学习和遗传算法等研究思路,对Kafka的性能与特征之间的关系进行大量实验与分析,并进行了相应的优化,具体的研究内容包含以下几个方面:(1)基于Kafka特征的官方定义与正交试验设计的思想,进行了特征的筛选与训练样本的生成。经研究分析,特征的筛选分为两步,第一步是根据官方注释与特征定义,筛选与性能无关特征;第二步是根据特征对性能的影响程度级别与专家推荐,筛选级别低的特征。为了避免完全试验,经过调研与分析,选择了正交试验设计方法来选择具有代表性样本集合作为训练样本。(2)利用训练样本,选择合适的算法构建性能预测模型。设计并实现了获取吞吐量性能的相关实验,构成完整的训练样本。通过研究对比几种机器学习算法,结合性能与特征的关系,选择了基于LASSO的机器学习方法来对样本进行学习,并筛选出对性能影响大的特征,最终构建了相应的性能预测模型。(3)基于预测模型与遗传算法,实现了性能与特征的最优解。设计了特征映射到遗传算法中的编码方式,并优化了交叉步骤,通过选择合适的适应度函数,进行选择、交叉、变异等操作,实现了遗传算法的优化过程。(4)进行了性能预测模型与改进遗传算法的实验与对比分析。通过方差、偏差、相关性的方式对预测模型的合理性进行了分析与验证。通过对比粒子群算法、DE算法以及标准的遗传算法对性能的优化结果,分析实验结果,证明本文提出的研究思路能在资源有限的情况下得到最优的性能。
其他文献
在制造企业装配过程中,混流装配能够提高物料利用率,满足顾客个性化需求,提高企业竞争能力。以某企业的一条混流装配线为例进行了研究,利用Flexsim仿真软件建立车间系统加工
目的:比较使用伽玛医用消毒湿巾与75%乙醇对 X 射线防护服表面消毒的效果,为选择合理的消毒方法提供依据。方法选取 X 射线防护服62件,其中手术室30件,导管室32件。随机分为试验组
<正>走进东成镇森村,原来垃圾堆和污水被整治干净,腥臭的鱼塘被填平,村民在烈日下修整自己的村庄,一大片拆除危旧老房腾出来的空地极具规模。据悉,就在云浮市里出台《云浮市
江西省景德镇乐平市被称为“中国古戏台博物馆”,拥有412座古戏台,是乐平市乃至我国重要的文化遗存,坊间更有“古戏台——北有山西临汾,南有江西乐平”,这一说法。本文通过对
建构主义学习理论于20世纪90年代进入中国,受到教育界的极大关注。从心理学角度入手,通过对建构主义学习理论的分析,探索该理论对英语语法教学的启示。
目的探讨达英-35和二甲双胍对多囊卵巢综合征不孕患者性激素水平及胰岛素抵抗的影响。方法选择2013年1月~2015年1月山东省淄博市莲池妇婴医院收治的80例多囊卵巢综合征不孕患
采用盆栽试验方法,研究不同氮肥水平下,喷施不同浓度烯效唑对水萝卜产量和品质的影响。结果表明:在不同施氮水平下,烯效唑处理均有利于水萝卜产量的提高,在低氮与高氮水平下,
话语与社会变迁理论认为话语能够投放社会中的权力关系和意识形态,影响社会身份、社会关系、知识和信仰,由此构成利益角逐的社会力量。研究选取主流媒体《人民日报》1949-201
调查海南23个香蕉园的土壤微生物数量,并分析18个土壤因子对可培养微生物数量的相关性。结果表明,蕉园土壤5~30cm土层可培养微生物的区系组成表现为细菌最多,放线菌次之,真菌
分析桌面地理信息系统的实现,结合互联网环境下的多层Web应用开展技术,讨论目前互联网环境下桌面型地理信息系统实现方法、空间数据的Inertnet发布技术.以Arc View及IMS(IP Multi