论文部分内容阅读
随着网络技术的不断发展,人们的现实生活与网络逐渐融为一体,互联网的发展也导致了攻击者利用恶意程序来欺骗用户或盗取财物,因此恶意程序的识别检测变得越来越重要。机器学习算法被广泛地应用于恶意程序识别中,但基于此类算法的恶意程序识别准确率并不是很高。因此改进恶意程序识别的算法,提高恶意程序识别的准确率已经成为急需解决的问题。本文在现有恶意程序识别技术的基础上,提出一种基于萤火虫算法优化的改进加权贝叶斯恶意进程识别模型。以在内存镜像中提取到的进程作为研究对象,采集其进程的行为数据,内容主要包括系统文件行为、注册表行为、API函数调用行为、进程异常操作行为以及网络行为,对采集到的行为数据进行特征提取得到特征关键词,并统计关键词在每个样本中出现的次数,建立关键词特征数据集,同时对数据集进行归一化与降维处理。针对处理后数据集,提出一种改进的加权贝叶斯算法,并利用萤火虫启发式算法对改进的加权贝叶斯算法模型进行寻优得到最优解。通过萤火虫算法不断地迭代来寻找样本属性与类别的权值,然后将迭代后得到的权值带入改进的加权贝叶斯模型中建立改进的恶意进程识别模型。从virusshare网站上下载1300个样本,其中包括木马、蠕虫、后门、广告软件四类共1000个恶意样本和300个良性样本。利用基于萤火虫算法优化的改进加权贝叶斯恶意进程识别模型对这1300个样本进行实际检测,得到恶意进程识别的平均准确率为95.15%,相比于朴素贝叶斯和互信息加权贝叶斯恶意进程识别方法,其平均识别准确率分别提高了 16.99%和5.4%,因此本文所提出的萤火虫算法优化的改进加权贝叶斯恶意进程识别模型对于网站获取的1300个样本具有更好的识别效果。可以得出本文提出的方法相较于传统的贝叶斯算法模型对木马、蠕虫、后门、广告软件这四类恶意样本的识别准确率更高。