论文部分内容阅读
随着计算机和网络通信技术的发展,网络流量日益增大。近年来我国网络带宽以每年80%的增长率迅猛增长,目前国际出口带宽已达到3688Gbps。与此同时,网络攻击也越发呈现多样性和复杂性,对网络信息内容安全提出了严峻的挑战。目前迫切需要对大流量网络环境下信息内容进行实时监测,高性能、低内存占用的模式匹配技术是其中亟待突破的关键技术之一。首先,为了进一步提高串行模式匹配算法的性能,本文借助于GPU的并行处理能力,提出了一个基于Bloom Filter实现的精确并行多模式匹配算法(PEBF)。根据模式长度将模式集划分成N个子集,为每个子集建立一个扩展Bloom Filter;并建立N个线程并行处理。在GPU上的实验结果表明,在最差的情况下,G-PEBF也可以达到10倍的加速比。然后,为了实现串行模式匹配算法的并行化,本文建立了两种并行模式匹配模型——向量模型和矩阵模型。基于向量模型提出了精确单模式匹配算法和近似单匹配算法;基于矩阵模型提出了精确多模式匹配算法和近似多模式匹配算法。之后在GPU上对基于矩阵的多模式匹配算法实现并行化,得到G-MBMPE和G-MBMPA。实验结果表明,G-MBMPE和G-MBMPA算法的效率分别是实验中各自对比算法效率的1.5倍左右。从实验结果可以看出,矩阵模型更适合处理并行模式匹配问题。其次,针对百万级规模的大模式集匹配方法内存占用和冲突率过高的问题,本文提出了一种随机指纹模型和基于该随机指纹模型的WM多模式精确匹配算法(RFP-WM)。算法对每个模式串都计算出一个唯一指纹,可以有效降低误报率。实验结果表明,与WM算法相比,RFP-WM算法极大地降低了哈希冲突率,提高了命中率。在本文的5组实验数据集上,算法效率提高约48%-65%。最后,针对网络信息监测中以海量URL为模式集的匹配算法效率低、内存占用大的问题,本文充分利用URL的结构化特点,提出了一个可扩展多哈希URL最长前缀匹配方法(SMH)。与传统方式不同,该方法并不将URL整体作为哈希的键值,而是将其以分隔符‘/’和‘.’为间隔单位的URL字符块作为哈希键值。所有键值按该字符块在URL中的次序以扩展哈希表的形式存储。扩展哈希表的桶中存储URL块和指向URL ID的指针,以此来降低误报率,提高匹配效率。实验结果表明,SMH的匹配效率高于经典的最长前缀匹配算法NCE、CT和BH,同时在内存消耗和可扩展性方面也体现出非常好的性能,适合处理百万级大规模URL模式集。