高性能精确单模式串匹配算法研究

被引量 : 0次 | 上传用户:sdn20907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
串匹配问题是计算机科学的基础问题之一,几乎所有涉及字符串处理的应用中都或多或少的存在字符串匹配的要求。特别是在信息检索,网络安全,计算生物学等领域,字符串匹配为这些领域的核心问题。在所有字符串匹配问题中,精确单模式匹配算法设计又是串匹配问题的基础。目前,随着网络安全问题的凸显,网络技术、计算生物学的高速发展,以及“信息爆炸”现象愈加严重,字符串匹配应用对字符串匹配性能的要求越来越高,这对高性能字符串匹配应用的串匹配算法设计(特别是精确单模式匹配算法)提出了新的挑战。本文主要对高性能精确单模式串匹配算法进行研究。首先对现有高性能精确单模式算法发展进行分析,给出目前在英文语料匹配下,性能最高的精确单模式串匹配算法。并分别对当前英文语料匹配下性能最高的两个串匹配算法Tuned BM和SBNDM2提出改进,提出了DQM算法和S2BNDM算法。具体来说,本文成果主要在于:1.总结前人研究结果,分析了现有精确单模式串匹配算法,并给出了目前进行字符串匹配领域研究的研究方向,以及目前性能最高的精确单模式串匹配算法。2.提出一种基于后缀匹配机制的高性能精确单模式串匹配算法—DQM算法。DQM算法以tuned BM算法为基础算法,在tuned BM算法基础上引入两个判定字交替进行跳跃的方法降低了随跳跃进行判定字匹配概率动态增长对算法性能的影响;引入了一种改进的越界保护机制以降低越界检查的开销;并通过位操作和合并操作的方法改进算法在判定字匹配后的动作,使分支与跳转的次数降至最低。实验表明,DQM性能比Tuned BM算法更高。3.提出了一种基于位并行、循环展开、按子串匹配机制的高性能精确单模式串匹配算法—S2BNDM系列算法。S2BNDM算法以SBNDM2算法为基础算法,通过修改BNDM类算法的位掩码定义,成功将BNDM类算法的核心循环化简至五条指令的最简形式。同时,本文在SBNDM2算法中引入下标越界保护,将下标越界检查的开销也降至最低。实验数据显示,在模式长度不超过机器字长的英文语料检索应用中,和模式长度不超过8的DNA序列检索应用中,S2BNDM算法是目前所有精确单模式串匹配算法中性能最高的算法。
其他文献
能源是人类赖以生存的最重要的资源之一。近年来,随着社会和经济的发展,提高能源利用效率,节约使用能源已成为我国乃至世界的一个重要课题。浙江省作为一个经济和能源消费大
学校改革必须着眼于教育理念和教育目的的革新,必须超越课程与教学方面的改进,而在学校结构、制度和文化层面进行彻底改革。传统学科设置和教学模式必须被一个以关心为中心的
<正>军队审计工作是一项政治性、政策性、专业性都很强的工作,加强对审计工作的组织领导,是搞好军队采购审计,提高审计效率,确保审计质量的重要保证为深化军队采购制度改革,
虚拟经营是现代企业的必由之路,虚拟营销是市场营销变革的必然产物。现有的市场营销理论内涵和边界正在向虚拟营销方向拓展,且企业已经开始了虚拟营销的实践。然而,到目前为
领导因素一直以来都被视为企业获得成功的关键因素之一。但是在有关组织学习与组织创新的文献中,通常却没有提起或者并没有将它作用一个重要的影响因素而进行理论与实证研究
《一报还一报》以一对未婚夫妇的"通奸罪"为线索,揭示了西方早期现代国家在依法治国过程中暴露的种种弊端。本文从现代刑法学的角度解读剧中透示的维也纳法律,以管见莎士比亚
广西五加科植物不但种类丰富,占全国总种数的1/3强,而且经济价值大。中外驰名的人参,在广西引种已成功,有效成分与东北产人参相似,只是糖分略较东北人参为高;人们熟悉的五加
如何制定科学的中间业务整合营销战略已成为银行中间业务拓展实践中的核心工作之一;科学合理的中间业务整合营销战略是实现对商业银行中间业务的有效市场运作,促进银行经营绩
近年来,法律文书送达不及时、案件卷宗流转不畅、上诉案件卷宗上报周期过长等现象已相当普遍,既造成案件久拖不决的问题,也影响了程序公正,这些问题往往成为案件久拖不决和超
耐除草剂转基因大豆品种的推广对简化大豆栽培、降低成本具有重要意义。同时可以提高大豆单产,并具有优良的品质性状特征。对国内2008—2015年杂交转育的转CP4-EPEPS基因大豆