基于深度学习的恶意代码分类与聚类技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 5次 | 上传用户:peachonly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们生活的方方面面已经和互联网深度融合。生活因互联网变得更加方便的同时,也使得人们更加容易受到来自互联网威胁的伤害,特别是以恶意代码攻击为代表的安全威胁。一方面,恶意代码数量增长迅速;另一方面,虽然恶意代码分析和检测技术不断进步,但恶意代码在发展的过程中为了规避检测,不断进化产生新的变种,并迅速复制和传播,导致近几年安全事件集中爆发。传统静态分析方法往往无法有效解决加壳、混淆技术带来的影响;传统动态分析方法在处理海量恶意代码时往往效率不高且执行路径单一。在基于机器学习算法的恶意代码分析方法中,与深度学习算法相比,基于传统机器学习算法的分析方法在提取恶意代码特征方面存在无法自动提取特征而需要人工设计特征的不足。针对现有恶意代码分析方法存在的不足,本文基于深度学习的理论与方法,针对基于Word2Vec算法的恶意代码基因向量化表示、基于Doc2Vec算法的恶意代码基因序列向量化表示、基于神经网络的恶意代码分类与聚类等方面进行了研究。主要工作如下:1.提出了恶意代码基因提取和基于Word2Vec的恶意代码基因向量化表示方法。(1)在恶意代码基因提取阶段,从恶意代码行为层面出发,基于海量恶意代码的自动反汇编组件,利用行进递归算法实现恶意代码基因序列的提取;(2)在恶意代码基因的向量化表示阶段,基于Word2Vec算法构建恶意代码基因预测模型,将恶意代码基因转化为高维实数向量,并利用恶意代码基因向量之间的空间向量表征恶意代码基因之间的关联性和相似性。实验通过恶意代码基因向量的语义推理和可视化证明,基于Word2Vec的恶意代码基因向量化表示模型可以很好的表征恶意代码基因的语义特征;2.设计并实现了基于卷积神经网络(Convolution Neural Network,CNN)的分类模型SMM_CNN(Static Malware Matrix_Convolution Neural Network),模型针对两种输入完成两种不同的任务。(1)针对经混淆的恶意代码,将恶意代码可执行文件转化为二进制码矩阵作为模型的输入,通过神经网络自动从数据中提取特征,主要解决因无法正确反汇编而不能有效提取特征的问题;(2)针对未经混淆的恶意代码,在1中提到的恶意代码基因向量化的基础上将恶意代码基因序列矩阵化,以具有语义特性和序列特性恶意代码基因矩阵为输入,通过卷积层和池化层自动对恶意代码基因矩阵提取特征,进行家族分类。实验证明,针对经混淆的恶意代码,SMM_CNN模型的分类准确率比传统的图像纹理匹配模型高出了8.4%,一定程度上实现恶意代码静态抗混淆;而针对未经混淆的恶意代码,SMM_CNN模型的分类性能更佳,达到98.04%;3.设计并实现了SMM_CNN分类模型的改进模型SMGS_RCNN(Static Malware Gene Sequences_Recurrent Convolution Neural Network)模型。针对SMM_CNN模型获取恶意代码基因的全序列信息能力相对较弱的特点,该模型在SMM_CNN的基础上结合循环神经网络(Recurrent Neuron Network,RNN),利用LSTM(Long Short-Term Memory)组件的遗忘机制、增加保存机制和长期记忆信息机制,提取恶意代码基因序列的序列特征。实验证明,相对于SMM_CNN模型,SMGS_RCNN的分类准确率提高了0.83%;4.设计并实现了一种表征恶意代码基因序列信息和整体语义的恶意代码基因序列向量化表示方法,并将其应用在恶意代码的聚类中。在恶意代码基因序列向量化表示阶段,针对恶意代码基因序列构建预测模型,将恶意代码基因序列转化为高维实数向量,并通过恶意代码基因序列向量表征恶意代码基因上下文信息和恶意代码整体语义信息。通过无监督学习算法,实现恶意代码家族聚类。实验表明,相对于随机编码的表示方法,该方法在聚类模型上表现出更好的性能。
其他文献
《御览诗》是唐人选唐诗中唯一一本由唐帝王亲自下令编纂的选本。共选30位诗人289首诗歌,基本以大历贞元时期的诗人为主。此书后世由于文献资料阙如和关注较少,很长一段时间,
作为我国国民经济的支柱,国有企业的发展状况直接关系到社会生产力发展、国家安定团结和人民生活水平改善的实现。而国有企业内部控制是否合理,在一定程度上决定着企业运行的
据文献报告,迄今为止,中国旅行商问题(C-TSP)的最优解是15492公理.本文运用模糊数学,模拟人的思维过程,提出了一种新的人机结合的寻优方法——优质穷举法,并且在理论上对该方
开通"渝新欧"国际通道,不仅仅能够解决重庆企业信息产业的运输问题,还能促进重庆企业的物流以及贸易发展,带动重庆整体经济业务的发展。但是"渝新欧"铁路的发展并不是很通畅,
“英雄”是一个长盛不衰的话题,是文学创作的几大主题之一,它的历史几乎和人类的历史一样悠长。英雄,作为原始氏族部落的守护神,作为国家民族的脊梁,英雄从一开始就注定了他
5月23日,2013年上市房企百强测评成果发布,排行榜显示,万科再次夺冠;保利恒大分别列此次综合实力榜第二、第三名;中国海外发展、华润置地、龙湖地产、世茂房地产、富力地产、
李拓之是活跃在40年代中国文坛的历史小说作家,《焚书》小说集是其历史创作的最高成就和集中体现。《焚书》无论在思想主题,还是艺术探索,都取得了非常突出的成就;然而由于种
新闻美学是将新闻纳入人类审美活动的主体框架和美学视野中加以考察,是研究新闻实践活动中美学现象和美学规律的科学。美学走向新闻领域与新闻实践相结合,是美学研究的空间拓
“知识分子写作”与“民间写作”是中国当代诗坛两个重要的诗学称谓,它们因为二十世纪末的诗歌论争浮出水面。拨开遮蔽在论争中的迷雾,沉潜于诗论与诗作,可以发现彼此书写的
明代浙江地区按察使官员权力之伸缩、地位之演变,在有明一代监察制度体系中具有一定的代表性,它不仅深刻反映了浙江地区在有明一代的吏治优劣、社会秩序与地方风气,同时也是