论文部分内容阅读
在互联网加速发展的当今,网络流量急剧增加,与此同时,各类网络攻击也不断增多,网络安全问题受到越来越多的关注。SSL VPN是一种广泛使用的安全传输方式,它通过建立安全隧道来保证信息传输的安全性,但这也给许多不法分子带来了可乘之机,一些黑客利用这种方式来绕过防火墙等安全设施的检测。因此,SSL VPN加密流量的有效识别对于网络监管来说十分重要。本文基于SSL VPN加密流量的特性,提出一种混合方法,通过两个阶段实现了SSL VPN加密流量的识别。本文的混合方法首先利用指纹识别方法识别出网络中的SSL加密流量,缩小识别范围,然后利用机器学习方法识别出网络中的SSL VPN流量。本文的主要工作内容体现在以下三个方面:第一,本文提出了一种新的指纹识别方法实现SSL加密流量的识别,有效解决了传统指纹识别方法存在的漏识别率较高的问题。本文提出的方法在拓展了SSL消息识别范围的基础上,加入了流的相关特征作为判断依据,实验结果表明本文提出的方法效果明显好于传统的指纹识别方法,平均识别准确率在0.985以上,比传统的方法高出9个百分点。第二,针对SMOTE方法存在的不足,本文提出一种新的C-SMOTE方法,解决了SMOTE方法存在的样本边缘化和分类边界模糊问题。SMOTE方法利用随机抽取的少数类样本生成新样本,以达到样本平衡的目的。这种方法因为其简单有效得到了广泛应用,但也存在一些不足。由于SMOTE方法中的中心点样本是随机挑选的,若抽取到的样本是噪声点或者处于数据集的边缘,则会使得新生成的样本效果不佳,无法体现出原始样本的特性。同时,随机生成的新样本也可能造成分类边界的模糊,使得模型的分类性能下降。本文提出的C-SMOTE方法以少数类样本的质心作为中心来生成新的样本,在生成新的数据集后再对边界模糊样本进行删除。理论分析和实验结果均表明,C-SMOTE方法的效果要明显好于SMOTE方法,对分类器效果的提升均在2.1个百分点以上。第三,本文基于遗传算法(GA)和随机森林(RF)算法提出了PGA-RF和CGA-RF两种算法,将两种方法相结合,实现了SSL VPN加密流量的有效识别。PGA-RF算法将遗传算法和随机森林相结合,寻找当前条件下RF算法的最优参数,然后将这些参数值作为CGA-RF算法的输入。CGA-RF算法结合遗传算法和选择性集成的思想,从分类器集合中选择优质的子分类器来构建随机森林。实验结果表明,CGA-RF算法的效果明显好于RF算法,对SSL VPN加密流量的识别率达到了93.2%。