高性能在线模式匹配算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cxr1682000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络通信技术的发展,网络流量日益增大。近年来我国网络带宽以每年80%的增长率迅猛增长,目前国际出口带宽已达到3688Gbps。与此同时,网络攻击也越发呈现多样性和复杂性,对网络信息内容安全提出了严峻的挑战。目前迫切需要对大流量网络环境下信息内容进行实时监测,高性能、低内存占用的模式匹配技术是其中亟待突破的关键技术之一。首先,为了进一步提高串行模式匹配算法的性能,本文借助于GPU的并行处理能力,提出了一个基于Bloom Filter实现的精确并行多模式匹配算法(PEBF)。根据模式长度将模式集划分成N个子集,为每个子集建立一个扩展Bloom Filter;并建立N个线程并行处理。在GPU上的实验结果表明,在最差的情况下,G-PEBF也可以达到10倍的加速比。然后,为了实现串行模式匹配算法的并行化,本文建立了两种并行模式匹配模型——向量模型和矩阵模型。基于向量模型提出了精确单模式匹配算法和近似单匹配算法;基于矩阵模型提出了精确多模式匹配算法和近似多模式匹配算法。之后在GPU上对基于矩阵的多模式匹配算法实现并行化,得到G-MBMPE和G-MBMPA。实验结果表明,G-MBMPE和G-MBMPA算法的效率分别是实验中各自对比算法效率的1.5倍左右。从实验结果可以看出,矩阵模型更适合处理并行模式匹配问题。其次,针对百万级规模的大模式集匹配方法内存占用和冲突率过高的问题,本文提出了一种随机指纹模型和基于该随机指纹模型的WM多模式精确匹配算法(RFP-WM)。算法对每个模式串都计算出一个唯一指纹,可以有效降低误报率。实验结果表明,与WM算法相比,RFP-WM算法极大地降低了哈希冲突率,提高了命中率。在本文的5组实验数据集上,算法效率提高约48%-65%。最后,针对网络信息监测中以海量URL为模式集的匹配算法效率低、内存占用大的问题,本文充分利用URL的结构化特点,提出了一个可扩展多哈希URL最长前缀匹配方法(SMH)。与传统方式不同,该方法并不将URL整体作为哈希的键值,而是将其以分隔符‘/’和‘.’为间隔单位的URL字符块作为哈希键值。所有键值按该字符块在URL中的次序以扩展哈希表的形式存储。扩展哈希表的桶中存储URL块和指向URL ID的指针,以此来降低误报率,提高匹配效率。实验结果表明,SMH的匹配效率高于经典的最长前缀匹配算法NCE、CT和BH,同时在内存消耗和可扩展性方面也体现出非常好的性能,适合处理百万级大规模URL模式集。
其他文献
珠海市梅华中学建成于2018年9月,地处珠海市城市核心地带,是一所市、区着力打造的美雅、精致、现代化的新优质学校。学校占地2.1万平方米,建筑面积2.6万平方米,按36个教学班
习近平关于分配的重要论述是对马克思主义分配理论的坚持发展,是中国特色社会主义进入新时代的理论创新。习近平关于分配的重要论述将生产与分配、国内与国际、公平与效率、
目的观察速效心痛滴丸对缺血性心脏病心绞痛的疗效及作用机制。方法应用速效心痛滴丸对缺血性心脏病心绞痛进行治疗,观察治疗前后患者自身心绞痛的症状、心电图的改变情况、NS
随着Internet的发展和基于Internet的应用的延伸,系统形态正从面向封闭的、熟识用户群体的和相对静态的形式向开放的、公共可访问的和动态协作的服务模式转变。应用系统开始
不断涌现的高学历NEET(Not in education,employment or training)族引发了社会和学术界的担忧,其中不乏国内知名学府的毕业生。本研究通过对三个高学历NEET族进行深度访谈,
羔羊腹泻病是目前规模养羊场的多发病,同时也是影响羔羊发育、致使羔羊死亡的主要疾病之一.本文主要针对引发羔羊腹泻病的病因进行分析,以便指导此病的研究及其防治,从而帮助
日趋复杂多变的应用环境,导致传统安全控制技术已不能给计算机网络提供足够的安全保障,入侵检测技术便应运而生。由于入侵检测系统与生物免疫系统之间在检测、多样性、学习和
随着网格计算、普适计算、P2P计算、AdHoc网络等大规模分布式应用的深入研究,系统表现为由多个软件服务所组成的动态协作模型。在这种动态和不确定的环境下,基于CA(certificate
意识形态工作是统一战线的灵魂工程。当前做好统一战线领域意识形态工作需要多管齐下,多措并举。思想层面,要坚持唯物史观,以解决社会存在问题来化解意识形态风险源头;理论层
目的探讨布托啡诺在瘢痕子宫剖宫产术中腹膜牵拉反应中的预防价值。方法选择2017年5月—2018年5月治疗的瘢痕子宫剖宫产术患者80例作为对象,随机数字表分为观察组、对照组(各