论文部分内容阅读
无限数据流中频繁项监测问题定义为对给定输入数据流在任意时刻输出一个当前所有输入数据项中出现频率超过阈值的频繁数据类型及频率值的列表,它对于大规模网络流量的测量与分析具有重要意义。本文基于网络报文流分析的应用需求,归纳出一般意义上的报文流分析模型和频繁项监测问题抽象定义,并据此对当前典型的频繁项监测算法进行分析比较。本文还提出一种在有界存储中进行频繁项监测的高精度改进算法,实验结果表明:改进算法漏检率为零,频繁项查找精度高于70%,频率值平均估计误差低于2%,算法平均处理速度为0.89x107pps,优化后达到1.14x107pps,满足高速网络报文流的应用需求。