基于频繁序列挖掘的预取方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:love916579208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在存储系统中,CPU的处理速度远大于磁盘等I/O设备的读写速度,两者间的速度不匹配严重影响了系统整体性能。预取技术能够有效地弥补I/O设备与CPU之间的速度差异,因此被广泛应用。随着云技术、虚拟化技术的普及,集中存储前端往往承载着各种应用服务,导致前端单一应用负载内在的访问局部性和顺序性在后端被破坏,以往广泛采用的顺序预取不能很好地发挥作用。针对这样的问题,提出一种基于频繁序列挖掘的预取算法,以改进I/O预取效率,提高存储性能。  然而目前已提出的许多频繁序列挖掘算法针对的问题基本上是相关性挖掘、关联性分析等对时间响应没有严格要求的场景,这类场景更多的是关注序列挖掘的准确性从而相对地忽视了挖掘效率。但实时预取等时间关键的应用场景更多关注响应时间,现有的频繁序列挖掘算法往往会产生较大的时间开销。因此为了降低挖掘开销,适应存储系统等场景的在线连续运行,快速的频繁序列挖掘算法TcMiner能够有效地解决时间关键场景的局限性带来的问题。  基于TcMiner预取算法利用频繁序列挖掘技术对已发生的I/O访问行为进行快速分析,获取相关性强的数据序列,形成预取规则并采用子树间无包含关系的字典树(Tire Tree)来保存数据块间的相互关系,从而进行精度较高的预取操作。同时,为了适应不同的负载环境,在采用字典树进行预取的基础上进一步改进的多步预取和子树切割两种算法也可以进一步提高预取算法的精度。  测试表明,在内存占数据量5%的情况下,基于TcMiner的预取算法及其改进方法相比于LRU算法有明显提升,相比于C-miner采用的预取算法准确率提升22%~26%。当内存限定从256MB下降到32MB时,基于TcMiner的预取算法精度从93%下降到88%,而C-miner采用的预取算法精度从75%下降到52%,在内存较小的情况下,基于TcMiner的预取算法具有更好的适用性。
其他文献
由于可以利用计算机软件系统控制其执行的过程都可以广义地称为工作流,因此工作流技术作为过程建模和过程管理的核心技术,可以应用于各种业务领域快速有效地构造符合企业需求
在单个芯片上集成成百上千个核是工艺发展下的一种趋势。基于碳纳米管的无线天线技术,使无线片上网络具备了良好的扩展性,面向不同的应用需求,无线片上网络的渐进扩展成为了一个
随着模板技术的广泛应用及协同技术的飞速发展,协同模板概念在两者技术优势的结合下产生。本文介绍了协同模板建模系统(CoTM),在此基础上展开基于约束模型的任务机制研究,重
在大型企事业单位的信息环境中通常存在着多种应用信息系统,而各系统采取的权限管理、授权服务与访问控制的方式往往各不相同,在实际应用中对于各个系统资源的访问缺少一种统一
在海量数据存储与大数据处理中,普遍采用了基于HDFS (Hadoop DistributedFile System,Hadoop分布式文件系统)架构的集群来存储数据。为支持大数据分析在海量数据上进行实时查询
本文在对系统架构进行详细分析的基础上引入Struts框架,深入研究了Struts应用框架的内部结构、工作流程及其所使用的设计模式。探讨了如何利用Struts框架,通过优化Web应用程序
随着WWW的急剧增长以及多媒体技术和通讯技术的飞速发展,快速有效地进行互联网多媒体信息检索、查询和浏览,成为人们的迫切需求。现存的图像搜索引擎,大多是采用基于文本关键
随着计算机应用技术的不断发展,计算模式从集中式转向了分布式,尤为典型的是C/S结构(Client/Server),在上个世纪八十年代及九十年代初得到广泛应用。但随着企业规模的日益扩
传统的边界防火墙存在单点失效和性能瓶颈的局限性,而且依赖于网络的拓扑结构实施其安全策略。在网络高速发展的今天,传统防火墙的局限性越发显得明显。分布式防火墙正是在这样
随着无线局域网得到越来越广泛的应用,研究无线宽带接入互联网的基础理论与关键技术具有重大的科学和经济意义,提供高性能的无线互联网传输协议是实现无线宽带接入互联网要解