中文多模式匹配算法及其并行化研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Lucy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式(字符串)匹配是计算机领域中的一个重要的研究方向,该问题是计算机科学中的基础问题之一,在学术界和工业界有着广泛的研究与应用。模式匹配算法被广泛应用到涉及文本处理的各个领域,在网络安全、信息检索、文本过滤、以及生物信息学中都是关键问题。随着互联网、海量文本检索、计算生物信息学的高速发展,模式匹配问题中的规则数也迅速的增大,模式匹配算法面临的挑战也越来越大。特别是在我国网络安全领域中,当前一些模式匹配算法已经很难满足在中文字符环境下的较大规模模式集匹配系统的性能要求。因此,迫切需要在较大规模模式串下构造性能突出的模式匹配算法。本文首先介绍了模式匹配的一些经典算法,如BF算法、KMP算法、BM算法、AC算法、AC_BM算法和WM算法。其次,在较大规模多模式环境下,对于中文字符集,本文提出了一种基于WM算法的改进的多模式匹配算法——MSCZ算法。改进策略包括:1.利用二级哈希策略削减了WM算法在中文较大规模模式集下的高内存空间占用与高冲突的情况。2.对于中文模式串出现的前缀包含情况,通过模式串前缀压缩策略,解决了HASH表中模式串链过长的问题。3.通过进一步对压缩后的HASH表模式串链,建立二叉查找树,将原有WM算法查找时的线性时间复杂度转化为了对数时间复杂度,提升了算法在模式集规模较大时性能。实验表明MSCZ算法相对于WM算法在性能上有了较大的提升。最后,本文对MSCZ算法在Hadoop Mapreduce框架下进行了并行化设计与实现。本文提出了MSCZ算法的Hadoop Mapreduce并行化方案,旨在提高MSCZ算法对海量数据集的处理速度。针对MSCZ算法在Hadoop Mapreduce并行化过程中存在的输入数据量为大量小文件时,系统启动过多作业而导致的系统性能低下的问题,通过自定义文件输入格式,将多个小文件作为一个作业输入,降低作业个数。实验表明Hadoop Mapreduce并行化的MSCZ算法相对于串行的MSCZ算法性能有较大的提升。
其他文献
航天测控网资源分配和调度的目标是:在指定的调度时间段内,根据卫星测控任务需求,合理有效地分配各个测控站的资源,以解决日趋严重的“多星冲突”问题,实现完成任务的效益值
网络体系结构的改进和宽带技术的提高推动并加快了传统网络向下一代网络(NGN)的演进,用户对网络服务质量(QoS)的要求也越来越高。因此,如何提供端到端的QoS将是NGN的核心问题
随着信息科学技术和计算机科学的飞速发展,系统对存储、计算速度和带宽的要求也在不断的增加,单一的计算节点已经无法满足很多大规模计算密集型应用的需求,并行与分布式平台
汽车发动机是一个复杂的动力系统,其设备之间的复杂性导致汽车发动机故障诊断的复杂性和不确定性。由于这种不确定性的存在,使得难于建立一个定性的模型用于汽车发动机故障诊
本文以无线自组网中的入侵检测技术为研究重点,在总结当前该领域国内外的研究进展和无线自组网的安全现状的基础上,详细分析了入侵检测技术在无线自组网中遇到的挑战及现有技术
软件复用是提高软件生产效率和质量的现实可行的途径,其中基于构件的领域软件开发平台成为了研究的热点。零码软件生产平台是面向特定领域的基于构件的软件开发平台,提供了过
随着信息技术的发展,计算机已成为人们工作、学习和生活中不可缺少的部分,而计算机软件正是推动这一发展的主要动力。然而,盗版现象日益严重,引起了许多企业和学者的关注。要
随着互联网的普及和发展,网络已经与人们的生活息息相关。由于接入到互联网的人数激增,给传统的客户机/服务器模式的网络带来了很多新的挑战。近年来Peer-so-Peer(简称P2P)技
嵌入式系统SoC的器件尺寸越来越小、集成度越来越高、功能越来越复杂,传统的设计方法已经不能满足当前SoC设计的需求,因此出现了软硬件协同设计。软硬件划分是软硬件协同设计
随着数据仓库应用范围的不断扩大,集中式数据仓库环境已不能满足用户的需求,分布式数据仓库技术应运而生。分布式数据仓库中的数据大多来源于多个分散、异构及自治的底层业务