基于机器学习的CDN缓存策略优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shanzhaokai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内容分发网络(Content Delivery Network,CDN)作为目前承载了全球互联网约70%流量的网络存储架构,在加速网络应用中发挥了重要作用。作为CDN的核心组件,CDN缓存被广泛研究以提高CDN服务质量。然而,随着互联网应用的极速发展,CDN业务不断增长、类型逐渐多样,使得在现有CDN多层缓存架构下,复杂多变的CDN负载为CDN缓存优化带来了挑战。因此,深入分析不同层级、不同业务的CDN负载特性,并根据CDN负载分析的结果优化缓存策略,对于优化CDN缓存具有重要意义。为解决当前CDN缓存负载分析中未能给当前架构下所有类型负载进行刻画的问题,研究当前CDN缓存多层级与多业务架构下负载的访问模式和缓存性能之间的关系,为CDN缓存配置提供指导。从商业CDN收集多层级和多业务下的四个访问日志,并提取负载特征进行深入的负载分析,包括文件大小、流量请求模式、时间局部性和流行度分布等,挖掘出访问规律:对象大小的分布与业务类型高度相关;随着时间的推移,访问流量呈现出昼夜模式和周模式;网站业务的时间局部性在不同层级有所不同,但视频业务却相对稳定;访问流行度遵循齐夫分布,且存在大量一次访问对象,中间层尤为明显。在各种缓存配置下评估四个工作负载的缓存性能,以验证负载分析的结论,并为不同类型的CDN业务提供缓存配置指导。由于CDN负载中存在大量的一次性访问对象,缓存这类缺失对象会带来不必要的写流量和缓存污染,从而导致缓存命中率下降。为了解决该问题,提出了“一次访问排除”缓存准入策略(One-Time-Access Exclusion,OTAE),包含分类器和历史表,旨在过滤一次性访问对象。通过量化分析确定“一次访问”标准,并引入决策树算法构建分类器,以初步确定缺失对象是否为一次访问对象。为了减轻分类器的误判对缓存性能的负面影响,引入了历史表来维护分类器判定为一次性访问对象的元数据。实验结果表明,使用OTAE可以提高缓存性能。以LRU为例,应用OTAE后可将缓存字节命中率提高4.5%,将写入流量减少69.3%,并将响应延迟降低5.2%。对于多样化的CDN负载,现有的缓存策略在性能改进方面存在局限性:增大缓存容量以提升缓存性能的性价比太低。为了缓解这个问题,提出了“最后访问排除”缓存替换策略(Last-Time-Access Exclusion,LTAE),通过替换在特定时间范围内将不再被访问的对象来提高缓存空间的利用率并减少回源流量。根据敏感性测试量化不同缓存容量对应的“最后访问”标准。在此基础上,引入重用时间和访问频率两个动态特征,利用Light GBM算法构建分类器,以预测命中对象是否为最后一次访问,从而指导替换决策。结合OTAE和LTAE,构建基于O’LTAE的CDN缓存框架。实验结果表明,相比主流的缓存替换策略,基于O’LTAE的缓存框架平均提升了1.18%~11.82%的字节命中率,同时减少了53.91%~59.79%的写入流量。
其他文献
信息时代数据量呈爆炸性增长,对数据处理的性能、可靠性以及存储的容量都提出了更高的要求。一方面,传统的冯诺依曼体系采用存储与计算分离的体系结构,数据迁移消耗了大量I/O资源和能耗开销;另一方面,存储与计算性能发展不平衡的矛盾日益凸显,目前处理器处理器速度每年增长60%,存储器存取延迟每年仅改善7%,数据访问延迟大。存算融合的体系架构通过在存储中分担计算任务来减少数据移动带来的高昂开销,成为了解决“存
随着化石燃料的过度消耗给地球带来不可逆转的环境伤害,研究人员开始寻求高效存储能量的方法。经过40多年的发展,锂电池储能技术日渐成熟,作为一种高能量密度且环保的技术,锂电池已经被广泛地应用于汽车、消费电子、医学器件与能源存储领域。为了实现能源的高效利用,锂金属电池中首要问题——锂枝晶的生长问题成为亟待解决的重中之重。枝晶这种现象会直接导致电池出现库伦效率降低、循环寿命变短等问题,更有可能引发严重的安
岩性是评估地层特征和储层油气含量的关键,开展储层岩性识别研究对油气勘探和开发具有重要意义。针对传统基于机器学习的岩性识别方法的局限性:1)忽略了岩性和测井序列在深度空间上的相关性;2)未考虑不同油井测井数据的特征、岩性分布差异性的影响,本文以中国江汉地区页岩油井测井数据为研究对象,从原始测井序列数据分析角度出发,利用深度学习和半监督学习理论方法,分别从测井序列数据预处理、同油井岩性分类和跨油井岩性
云计算已经成为了当前主流的信息技术,随着云计算的快速发展,其中的安全问题也日益突出。云环境具有动态性、开放性和异构型的特点,恶意程序很容易转移到云环境中,隐私安全成为了云计算发展中必须要解决的问题。在云环境中,很容易销毁用户隐私窃取行为的痕迹、很难定位和追踪恶意样本来源,因此云环境下的隐私安全问题一直是一个挑战。针对云环境下的隐私安全问题,设计开发了隐私侵犯事件融合与关联分析系统。首先在云环境的入
我国抗击新冠疫情历程曲折,疫情初发期内城市社区缺乏快速高效的组织能力来应对疫情风险,其教训值得反思。本文首先引入民航飞行险境处理中的快速参考手册(QRH)及其蕴含的“危机自救”与“范式指引”两大核心理念,探讨面对传染病风险治理新挑战而引入新理念的必要性,并从比较飞行危机处理与传染病疫情防控的类似性、梳理QRH理念对社区防控方式的借鉴性这两方面说明QRH理念对传染病社区防控的理论适用性。接下来,本文
容器虚拟化越来越流行,在云计算平台上很多应用都基于容器环境来执行。和虚拟机相比,容器由于采用共享宿主机内核的方法,在性能表现上更加突出,但同时也牺牲了隔离性。内存带宽作为容器间竞争十分剧烈的资源,在多容器环境下,由于不同负载容器存在不同的内存带宽敏感性,某些容器过量占用内存带宽,其他容器内存带宽需求无法得到满足,从而造成某些容器性能下降严重,而某些容器几乎不受影响,也就是系统不公平性上升。因此一种
信息技术在工业场景的广泛应用,促进了IT技术与OT技术的融合,传统的工业网络无法满足大带宽、高实时性和高确定性网络传输的要求,因此提出通过时间敏感网络对网络中不同的流提供不同的传输质量服务。近几年时间敏感网络的发展较快,国内还没有对搭建后的TSN网络进行性能测试的工具或系统,因此本文构建了基于边缘计算的时间敏感网络性能测试平台来便捷的测试时间敏感网络的性能。通过分析时间敏感网络性能测试的需求,采用
醌类化合物具有高亲电性去芳构化的特点,是有机合成领域极为重要的一类合成子,但却因易水解和聚合的特性导致许多亚稳类型的醌类化合物无法得到有效应用。针对其低稳定性、难分离的特点,我们基于仿生催化氧化策略,利用hemin/H2O2体系成功实现了亚稳醌亚胺中间体的原位生成,首次实现了这类中间体与N-芳基腙类化合物的1,3-偶极环加成反应,从而发展了一种全新的高效构建1,3,4-噁二嗪类杂环化合物的单步骤分
W(Mo)Te2具有优异的导电性以及独特的配位结构,在电催化领域具有较高应用潜力。发展基于W(Mo)Te2催化剂的结构调控策略对优化其析氢性能十分重要,利用单片电催化微纳器件能够实现单一结构因素调控下的电催化性能的精准确定,避免常规电催化测试中催化剂多种微结构对性能的干扰,基于此,本文发展等离子体处理/激光辐照等表面处理策略,实现单个W(Mo)Te2纳米片表面原子掺杂以及空位的精准构筑,利用单片电
基于日志结构合并树(Log-Structured Merge-tree,LSM-tree)的键值(Key-Value,KV)存储凭借优异的写性能优势广泛应用在写密集型应用场景中。随着NAND闪存技术向更高存储密度的方向发展,NAND闪存的操作单元越来越大,基于NAND闪存的固态盘(Solid State Drive,SSD)容量也越来越大。一方面,更大容量的SSD需要更大的LSM-tree来管理: