论文部分内容阅读
针对机器学习分类算法的"概念漂移"现象,该文提出了一种基于用户连接图的(Host Connection Graph,HCG)流量分类机制。算法将{IP Address,Port}作为用户唯一标识,构建了用户连接图,提出了"用户相似度"的概念;应用"图挖掘"理论将用户连接图划分为互不相交的行为子簇,使得用户之间的相互通信抽象为一种"社会团体";通过定义基于信息熵的"用户行为模式"(UBM),分析了各个行为子簇背后表现出的业务特征,并使用"UBM+Port"对用户行为子簇进行了业务标签映射,实现了流量分