基于决策树的恶意程序行为检测系统Malware Sandbox设计与实现

来源 :四川师范大学 | 被引量 : 5次 | 上传用户：lichlei

【摘要】

：

反病毒厂商每天都要收到数以万计的可疑程序样本,工程师需要从海量可疑文件中找出真正的恶意程序,以提取病毒特征码,从而更新病毒特征数据库。本题的目标是开发出一套基于程

【作者】

：

程涛

【机构】

：

四川师范大学

【出处】

：

四川师范大学

【发表日期】

：

2011年01期

【关键词】

：

恶意程序 API hook 高层行为分类模型决策树虚拟机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

反病毒厂商每天都要收到数以万计的可疑程序样本,工程师需要从海量可疑文件中找出真正的恶意程序,以提取病毒特征码,从而更新病毒特征数据库。本题的目标是开发出一套基于程序行为的恶意程序分析检测系统Malware Sandbox,用以高效快捷的判定样本是否恶意程序,并生成具体的行为报告,帮助反病毒工程快速的找到恶意程序和提取其病毒特征码。本文的基本思想是使用API hook技术提取程序运行过程中的API调用序列;然后根据API调用序列上下文关系提取程序高层行为数据;在训练阶段用大量的高层行为数据构建C5.0决策树分类模型;利用决策树分类模型模拟反病毒工程师的逻辑判断过程判断未知样本的恶意性。本文的主要工作量和创新点有如下几项:1.在长期的病毒样本处理过程中,总结出了110种程序行为特征和26种文件特征作为研究对象。2.现行行为检测系统CWSandbox等都认为API调用序列反应程序行为,通过hook程序API的调用提取API调用序列,以此序列作为研究对象。本文不直接研究API调用序列,而是研究从API序列中根据API调用上下文的关联性提取的高层行为(High level behavior),以这种高层行为作为研究目标数据,用机器学习的方法构建恶意程序分类模型。这种结合了上下文关系的高层行为比单纯的API更加意义丰富,更能反应程序行为本质。本文首先采用微软Detours开发库来hook系统API,提取API序列。但是Detours在应用上有一个难点,必须为每一个API编写一个hook函数,这势必增加开发难度,使程序结构复杂化。本文在深入研究Detours hook原理后,改进了其原有的hook机制,改进后的detours只需要一个通用的hook函数就能处理任意API hook,不需要为hook一个新API而添加或者修改任何代码,实现“以数据驱动程序,而非代码驱动程序”。在高层行为提取时,将API调用表示成Prolog语言的事实定义,将高层行为表示成Prolog规则定义,充分利用Prolog逻辑处理能力,准确的提取程序行为。3.检测系统运行在一个VMWare虚拟环境中提取样本程序API调用序列。虚拟系统使用Vix虚拟机自动控制技术对虚拟环境进行自动化控制,从而使得API序列提取过程可以无需人工参与,高效自动的完成。4.本文引入了典型正常行为特征用于分类决策。相比其他行为检测系统只关注恶意程序行为特征而言,Malware Sandbox引入的正常行为特征可以有效的降低检测误报率。实验得出Malware Sandbox恶意程序行为检测系统具有较高的检出率和较低的误报率,能快速的生产未知程序行为报告提供给反病毒分析人员进一步深入分析。然而本检测系统也存在无法解决的缺点:病毒程序的特殊性要求程序运行在虚拟环境中运行,然而有些病毒则可以通过反虚拟机技术逃避检测,从而影响了本系统的检测率。

其他文献

面向智能电网的异构数据集成方法研究与应用

本文针对在智能电网数据集成中出现的由于数据异构原因产生的“信息孤岛”问题,将XML和本体技术结合起来应用在电力系统中,采用基于B/S的三层体系结构,以中间件的方式来解决电力系统的异构数据集成,从而实现对各个分布式数据源的透明访问和集中管理。首先,通过运用电力系统实例分析了现有的基于关系数据库构建本体方法在概念提取方面的不足之处,并对其加以改进,然后通过数据验证了改进后方法的可行性和高效性,并在一定

学位

智能电网XML本体数据集成中间件

协同过滤推荐系统中关键问题研究与实现

随着Internet和信息技术的飞速发展,信息过载变得越来越严重,由此推荐系统应运而生。在推荐系统所采用的技术中,协同过滤是最为成功的技术。但是伴随着应用范围的扩大和应用

学位

推荐系统协同过滤稀疏性冷启动

图像修复技术研究

随着科学技术的发展和人们生活水平的提高,数字图像处理技术被应用到人们生产生活中的各个领域。这使得数字图像处理技术成为近年来科学家研究的热门领域,图像修复技术是数字

学位

数字图像处理图像修复偏微分方程TV模型权值函数

基于增强学习的计算机博弈策略的研究与实现

计算机博弈作为人工智能领域的一个重要分支,得到了极其快速的发展。计算机博弈是一个有关对策和斗智问题的研究领域,属于人工智能中的问题求解与搜索技术。博弈的核心思想实

学位

博弈TD(λ)算法评估函数BP神经元网络五子棋

基于FPGA的嵌入式系统应用研究

随着信息技术与网络技术的高速发展,嵌入式系统正越来越广泛地应用于科学研究、军事技术、工程设计、消费类电子等方面。嵌入式系统的研究内容涉及到计算机学科的各个方面。

学位

嵌入式系统FPGA人脸检测系统

网络试题库系统的设计研究

随着计算机技术的迅速发展,计算机在教育中的应用已经成为改革我国教育方式和教学方法的重要手段。计算机辅助教学就是利用计算机强大的信息处理、显示、控制和传输功能,特别

学位

网络试题库系统数据库计算机辅助教学多媒体信息

基于数据挖掘的智能财务审计系统研究与实现

传统审计方式很难发现隐藏于海量数据中的各种财务问题,本文以学科交叉的思维,综合运用数据挖掘技术、基于专家知识的故障诊断理论和财务审计理论,开发出了一个能够处理多种数据类型、自动发现审计线索的智能化财务审计系统。本文主要研究内容如下:(1)财务报表审计分析模型研究。将基于专家知识的故障诊断理论运用于财务审计领域,通过建立整体审计分析模型发现重点审计对象及疑似故障点,结合重点分析模型和个体分析模型对财

学位

基于ZigBee无线传感器网络的田间数据采集拥塞缓解方法研究

本文选择TI CC2530设备为实验平台,且设计和实现作物环境信息参数监控软件。为降低数据冗余带来的网络流量,本文在终端节点实现自适应加权数据融合算法,并给出严格的推导过程

学位

ZigBee拥塞缓解CRCR+RTMTSTM

基于同步相机阵列的自动人体三维重建

运动捕捉(Motion Capture)是计算机视觉领域的基础研究课题之一,旨在基于多个不同视角的同步相机阵列恢复人体运动过程中的三维模型和细节特征,在虚拟现实(Virtual Reality)

学位

自动分割多线索人体三维重建摄像机阵列深度恢复

信息检索查询词权分配方法的研究

因特网的发展使得人们可访问的信息资源越来越多,远远超过了人工筛选的处理能力,人们迫切的需要一种能够快速准确地为其找到所需信息的手段。信息检索这个研究领域正是应此需

学位

信息检索查询词隐马尔可夫模型概念重要性权重分配

基于决策树的恶意程序行为检测系统Malware Sandbox设计与实现

与本文相关的学术论文