基于汉字编码特征的中文多模式匹配算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:llyljl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来网络的高速发展,信息呈爆炸式增长,模式匹配是内容过滤和信息检索的核心技术,成为计算机应用和信息安全领域中的重要研究方向。对大规模中文模式匹配,已有模式匹配算法的时间和空间性能都难以满足需求。因此,提高中文模式匹配算法的时间效率,对于提高计算机应用系统的性能有重要意义。本文介绍了几种经典模式匹配算法,包括BF算法、BM算法以及Sunday算法等,深入研究了AC、AC_BM以及WM等多模式匹配算法,详细描述了各算法的匹配过程,分析了它们的优缺点以及时间性能。AC及其改进算法基于有限状态自动机,对于大规模中文模式串匹配,由于汉字的散度较高,导致有限状态自动机中的零状态过长,在查找零状态字符时耗时较多,算法的效率急剧下降。针对此问题,本文提出了一种基于汉字编码特征混合存储结构,并提出了相应的中文多模式匹配算法,该算法有如下特点:(1)考虑到汉字编码的首字节范围比尾字节范围小,因此,先查找首字节,再查找尾字节,由于首字节查找失败后直接跳转,一定程度上避免了查找尾字节,降低了查找时间。(2)对状态字符设置匹配标记,当字符的匹配标记为0时,不再匹配模式串后继字符,有效避免重复匹配以及部分匹配,节省了匹配时间。(3)将跳转距离存储在状态链表和匹配桶中,在确定下一跳转距离时同时查找跳转距离,避免了重复查找跳转距离,提高了算法的匹配效率。最后,对有限状态自动机的不同存储方式和不同跳跃式匹配算法的时间性能进行测试。实验结果表明,本文混合存储结构的时间性能好于状态矩阵和邻接邻接链表存储方式。本文算法的时间性能优于AC_Tuned BM算法、AC_WM算法及IACBM算法,适用于大规模中文模式匹配。
其他文献
随着信息技术的发展,全球范围Internet应用的普及,计算机网络越来越多的服务于人们的生产和生活,同时也给信息行业带来很多新的挑战。在众多的网络攻击事件中,由内部人员发起
动画和游戏制作是当前数字化娱乐的两个热点领域。在动画和游戏的制作过程中,时常会有按照背景音乐节拍,为角色配上合适的动作的需求。在一些强调动作和音乐合拍的应用情境下
网络安全的风险使企业和国家感到危机四伏,如何保障网络安全已成为全球关注的热点。黑客的攻击方式更加具备功利性和复杂性,以获得经济利益为主要目标,将矛头直接瞄准了台式
工业铁路货检车检在铁路运输中是一个十分重要的环节,它关系到企业能否进行安全的生产和作业,也直接影响到整个铁路的运输效率。长期以来我国工业铁路的货检车检作业都处于传
与传统的机械硬盘相比,基于闪存的固态盘具有诸多优点:性能高、能耗低、抗震强、体积小。然而,闪存厂商为了降低造价,持续地缩小闪存单元的体积并且提高每个闪存单元所存储的
高阶Voronoi图是普通Voronoi图的一种重要推广,在解决平面点集多个点的邻近问题中有着广泛的应用。然而,以往的高阶Voronoi图生成算法构造代价较高,时间复杂度较大,因而限制
粗糙集理论是一种处理不确定、不完备和不精确数据的数学理论工具,在数据分析与处理领域有着广泛而重要的应用。生物信息学是一门结合了数学理论、计算机科学与生物学知识的
目前可重构计算技术已成为计算系统研究中的一个新热点。作为一种新的体系结构,可重构计算同时具有软件的灵活性和硬件的高性能,在嵌入式系统和高性能计算等领域获得了越来越
多传感器遥感图像的信息融合可以克服单一传感器获取图像的限制,提高遥感图像分类精度,增强计算机自动解译的能力,减少遥感图像后处理时间,提高对地物变化的监测能力。目前遥感技
冠状动脉血管提取、血管中心线提取以及血管狭窄度测量是医学图像处理与分析中的研究热点。本文结合尺度空间理论,研究了基于CT数据的冠状动脉计算机辅助诊断(CAD)定量分析方