SA-IS算法的外存实现技术及其优化

被引量 : 0次 | 上传用户:jf8410
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后缀数组是由字符串中所有后缀按照字典顺序排序后组成的数据结构,是构建全文索引的有力工具。相比于后缀树,后缀数组构建的索引结构具有占用空间更小、构建速度更快等特点。这在当前的互联网信息检索和生物信息学等研究领域具有很高的应用价值。自从1990年U.Manber与G.Myers[1]提出后缀数组的概念后,近年来后缀数组构造算法的研究取得了较大进展。如KSP[2]、KA[3]和SA-IS[4]算法。然而随着当前数据量的增大,传统后缀数组构造算法由于受到内存的限制,因此处理大规模字符串的能力有限。那么对于如何能够在外存上完成后缀数组构建的技术研究就显得十分必要。本文介绍了种基于SA-IS后缀数组构造算法的外存实现技术,并指出了其实现中导致其外存I/O量过大问题的原因。文中我们通过分析其I/O量过大的原因提出了我们的优化实现。我们在优化实现中针对原实现中外存单桶块处理中存在冗余排序的问题,我们通过利用其SA分块中不同区域数据的特点,优化了其推导排序SA元素的过程;并针对原实现外存块处理中,关联PCI过程利用外存作为辅助排序空间会产生较大I/O的问题,我们优化了其关联PCI的步骤,较大幅度的降低了该过程的I/O量,提高了程序的执行效率。文中我们介绍了优化部分的实现,同时通过实验的方式验证了优化实现在性能上的提升。
其他文献
雷锋是中国政治宣传中最具代表性的典型人物之一,半个世纪以来我国媒体对雷锋的报道从未间断,雷锋及其身上所体现的雷锋精神在我国社会产生深远影响,关于雷锋的集体记忆已经成为
数据挖掘(Data Mining)是指从数据库的大量数据中通过算法搜索揭示出隐含的、先前未知的并有潜在价值的信息的过程[1]。目前,众多领域都在进行数据挖掘的应用研究。海南软件职业
<正>复旦投毒案中两个高材生生命的陨落令人唏嘘,但是,如何避免类似悲剧再次发生,反思却不能停。复旦投毒案1月8日10时在上海市高级人民法院二审宣判,被告人林森浩被裁定驳回
分析燃气内燃机用天然气互换性判定指数,应选取华白数、甲烷值。针对多气源并存的局面,从国家及行业标准、燃气内燃机生产厂家、用户端等角度出发,提出稳定燃气内燃机性能的对策
基于视频图像的多目标跟踪技术是目前计算机视觉领域的一个具有挑战性和吸引力的基础研究方向。在现实生活中,多目标跟踪技术可以作为行人、车辆行为识别等视频分析技术的基础
聚晶金刚石是70年代以来发展起来的一种新型材料,其突出特点是超硬耐磨,成型和表面光整加工十分困难。本文介绍了目前国内外加工聚晶金刚石的主要方法,即磨削加工、研磨加工
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
目的:探讨TLR4基因RNA干扰(RNAi)的重组慢病毒载体对人肝癌裸鼠移植瘤TLR4基因表达和移植瘤生长的影响。方法:1、构建1个阴性对照质粒和2个miR-TLR4质粒,选择干扰效果最明显的质粒
丽江是中国唯一同时被列入三项世界遗产名录的地级市,拥有世界文化遗产——丽江古城、世界自然遗产——三江并流核心区域、世界记忆遗产——纳西东巴文献古籍。丽江已发展成为
<正> 一、波兰教育情况与回顾波兰的教育事业比较发达,有悠久的历史和优良传统。早在12—13世纪,在今天的波兰国土上就出现了学校。1364年波兰国王卡吉米日三世在克拉科夫创