【摘 要】
:
字符串匹配是计算机科学中最古老,研究最广泛的问题之一。近年来,学术界对字符串匹配的研究兴趣与日俱增,特别是在发展迅猛的信息检索领域和计算生物学领域。形成这个现象的
论文部分内容阅读
字符串匹配是计算机科学中最古老,研究最广泛的问题之一。近年来,学术界对字符串匹配的研究兴趣与日俱增,特别是在发展迅猛的信息检索领域和计算生物学领域。形成这个现象的一个重要原因是需要处理的文本规模越来越大,以及网络带宽的日益增大,使得客观上对字符串匹配性能的要求越来越高。本文主要对高性能精确单模式字符串匹配算法进行研究。首先对现有精确单模式算法进行分析与实现,再通过实验得出在各种情况下性能最高的算法,并在具体数据基础上分析各算法得失。在这些工作的基础上,本文提出了一种简单并行加速的方法(改一次比较一个字符为一次比较若干字符,即并行比较),并用该方法改进了horspool算法和NEW算法(改进算法分别命名为Phorspool算法和Phash算法),实验证明,改进算法有效的提高了原算法的性能。本文所提的并行方法还可用于其他算法以改进性能。具体而言,本文的工作主要在于:1.总结了前人的研究成果,并通过实验数据对其进行了深入的分析;2.总结出影响字符串匹配算法性能的关键三要素:·搜索窗口内失配的概率和速度;·搜索窗口跳跃的平均长度;·内存引用次数3.提出了一种简单并行加速的方法。此方法意义在于并不局限于仅加速某种算法,其应用范围是普遍的(不局限于模式匹配算法,凡有进行挨个比较过程的算法皆可使用),能够很好的利用CPU的字长,但缺点在于目前在除intel处理器以外的CPU上不能运行(因为地址对齐问题)。4.使用本文提出的并行加速技术改进了Horspool算法,使其性能获得全面提升,且改善了其最差时间复杂度。5.在NEW算法基础上,本文设计出了Phashp-q系列算法(其中p∈{2,4,8},q∈[2;5]),解决了NEW算法难以解决的问题,并在性能上全面超越了NEW算法,成为新的小字符集下最快的算法。
其他文献
步态识别是根据人的步态特征对人的身份进行识别的技术。步态作为一种新的行为特征,具有远距离、非接触性、非侵犯性、易感知性、难以伪装或隐藏等特点,并且是低分辨率情况下
主动服务是在Web服务的基础上发展而来的一种按需计算的新型计算模式。它为普通用户提供一种综合化、智能化、个性化的网络服务解决方案。根据用户的服务需求,从Internet或本
主动轮廓模型在计算机视觉、目标运动跟踪、医学图像识别等领域已成为一项研究热点,不同于Marr分层视觉理论,它是一种充分利用高层信息的图像处理过程,能够将图像分割、目标检测以及先验知识信息统一在一个框架中讨论的模型。高分辨率遥感图相比于普通图像,包含的信息量更大,强度不均匀,背景更复杂。利用传统的主动轮廓模型来解决遥感图像目标提取,容易产生目标边缘丢失、陷入局部最优等问题,因此有必要进行研究,通过改
随着网络技术的迅速发展以及先进软件平台J2EE的广泛采用,基于MVC开发模式的多层Web应用已成为主流,而相应的SSH(struts+spring+hibernate)框架也引起了学术领域和应用开发领
OpenSSL作为当前业界应用最为广泛的一套SSL协议开源实现,其高强度密码算法在SSL协议中的应用一直以来受到美国政府的严格限制。随着计算机技术的快速发展,基于常规密码算法
移动机器人是一种具有高度自规划、自组织、自适应能力,适合于在复杂的非结构化环境中工作的机器人。路径规划和安全导航技术是自主式机器人的研究核心,同时也是移动机器人实
随着计算机系统在宇航、气象、救灾、军事等各个关键领域的广泛应用,其可靠性和可信性日趋重要,一旦硬件系统发生故障,可能带来巨大经济损失,甚至影响人身安全和国防安全。同
Internet是一个高度开放、异构和分布式的信息空间,海量的信息杂乱地散布在全球各个站点上,而且每天都以极快的速度更新。随着互联网技术的发展和网络应用的日益广泛,Interne
很多数据集中含有冗余数据、噪声数据,以及不完备数据。这些数据不仅占据了很大的存储空间,而且对学习器完全无用甚至有害。因此,我们希望能够从一个数据集中选取少量有用的
随着我国民主政治的不断推进,民主建设不断加强,政协委员作为履行人民政协职能的主体越来越被重视。由于政协组织的特点,政协委员分属各个单位,相隔甚远,除了开会,平时很难接