基于深度学习的漏洞挖掘关键技术研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:zengdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,软件在网络体系中的作用越来越重要,几乎所有的信息系统和商业应用都提供了基于软件的服务。例如电子商城、网络银行、快捷出行等领域都以Web网页或者移动APP等形式开展业务。这些软件形式的应用都是由大量的代码构建而成的,并且一般来说都有一个较长的开发周期,因此很有可能存在各种各样的安全漏洞。安全漏洞不仅会影响软件和服务器本身,还会对用户造成威胁,导致信息泄露、财产损失等后果。因此,如何高效地对源代码进行自动化漏洞挖掘是一个重要的研究课题,这对软件应用架构的发展和网络安全的建设具有重要意义。现有的漏洞挖掘方法主要可以概括为三种:一是人工代码审计,依靠安全专家的经验对代码进行复核,该方法不能保证漏洞挖掘质量,并且随着代码数量日益增加,依靠人力越来越不现实;二是基于规则的代码安全检测工具,该方法虽然具备一定的漏洞挖掘能力,但是容易出现较高的漏报和误报;三是基于代码数据流的检测方法,通过污点追踪检测从输入到输出的过程中是否存在安全风险,该方法常见于商业的漏洞挖掘软件,价格昂贵难以推广,且对新型的或者变种的漏洞类型检测效果较差。为了解决上述问题,本文提出了一种基于深度学习的漏洞挖掘关键技术。该技术的核心包含两个重要方面,一是创新性的基于字节码的特征提取方法,字节码是源代码编译运行的中间结果,可以抽象地表示漏洞特征。现有的研究和技术都是提取源代码特征或者规则,而源代码难以准确地表达漏洞,本文通过基于图的静态分析方法自动化提取漏洞的字节码切片,再将其转换为数字向量,去除了源代码中无意义的字符,更有利于算法的学习,避免过拟合现象。二是创新性的深度学习模型,不同于传统的输入输出分类模型,本文在构建神经网络时以LSTM神经元为基础,将神经元双向连接并分为两组,同时接收目标代码和漏洞模板两个输入,经过计算后得出两组输入的相似度,并根据最终计算结果是否超出设定的阈值判定是否存在漏洞。同时,本文设计并实现了一个名为Vulnerability Hunter(VulHunter)的漏洞挖掘系统,该系统具有可视化的操作界面,能够通过多种方式进行输入。开启任务后系统会自动提取字节码切片,将其转换为数字向量,然后使用深度学习模型来计算待检测的目标代码和漏洞模板的相似度,根据相似度值判定是否存在漏洞。为了评估系统的效果,本文以PHP软件为例,检测其中的SQL注入和跨站点脚本(XSS)漏洞。实验结果表明,该系统在检测单种类型的漏洞时可以达到88%(SQL注入)和95%(XSS)的F1值,而在检测多种类型的漏洞时可以达到90%以上的F1值。此外,与现有方法或工具相比,它的误报率(FPR)和误报率(FNR)更低。在实践中,本文用VulHunter检测三个真实的PHP软件(SEACMS,ZZCMS和CMS Made Simple),挖掘到五个漏洞,而其中三个漏洞以前并未公开。
其他文献
合成孔径雷达(SAR)图像解译一直以来都受到研究人员的广泛关注,近年来,随着雷达技术的发展,SAR图像已经达到了超高分辨率,这给解译工作带来了机遇和挑战。在超高分辨率SAR图像(MiniSAR)中,目标面和线常常呈现出大小不一、强度不同且不连通的亮斑使目标不完整等现象,使得直接进行目标检测极其困难,从而导致检测率低的问题。针对上述问题,本文提出了基于信息交互和迁移学习的超高分辨率SAR图像飞机目标
恐惧记忆的难以消退和长期持续性,使它成为许多精神障碍和情绪障碍治疗的重难点,如恐怖症,焦虑症,尤其是创伤后应激障碍(posttraumatic stress disorder,PTSD),这种由于机体遭遇了危及生命的事故或灾难,导致应激症状长期存在的精神障碍,其严重影响着患者的生存质量。近年来的研究表明,非编码小RNA(MicroRNA,miRNA)能够通过对基因表达的调控作用,参与恐惧记忆的巩固
随着我国行政体制改革的持续推进,政府绩效问题日益受到社会各界关注。选择符合地方实际的、具有广泛性、兼容性的绩效管理工具,成为各级政府积极探索的主要内容。目标管理因其实践时间长、应用范围广、认知度高、统摄性强而颇受欢迎,逐渐成为管理人员推崇的典型工具。当前,许多政府系统都陆续运行目标管理体系,但是由于区域发展的协调性不同,各级政府对于目标管理的理解和运用能力存在较大差异。因此,如何更好的运用目标管理
目的:BET bromodomain抑制剂治疗卵巢癌表现了不错的效果,其通过下调关键的转录因子发挥作用。在本研究中,我们系统地分析了JQ1在卵巢癌中引起治疗耐受的分子机制,以及其他表
配电自动化系统属于工业控制系统的一种,目前其发展趋向信息化与智能化,将更多的IT技术应用到新一代的配电自动化系统之中。近些年来工控相关安全事件频繁发生,随着我国配电自动化系统的高速发展,其信息安全防护将成为电力行业领域的热点和难点。相关领域的学者对于工控信息安全相关的研究取得了一定的进展,但对于配电自动化系统安全的研究较少。配电自动化系统尚未提出可信的风险评估模型,评估方法以主观推断和套用传统评估
儿童文学在孩子的成长过程中扮演着重要的启蒙角色,儿童文学及其翻译在本质上都是为儿童而创作的文学作品,需要充分顺应儿童的认知思维特点,因此无论是创作理念、创作过程抑或是文本本身,都具有其特殊性,译者也应尽力在译文中把儿童文学的这种特殊性充分地呈现出来。本文旨在探讨儿童文学特殊性在翻译中的呈现策略。本文首先对儿童文学及其翻译领域内的国内外相关文献研究进行了梳理与总结,并提出了笔者的思考,制定了以情节、
为了满足激增的流量需求并实现业务覆盖面积的增大,各大运营商所部署的基站数也快速增长,但也造成了相邻小区之间是密集和重叠覆盖的,这使得各小区间干扰成为制约用户性能的主要因素,因此在此场景下可以通过邻近小区之间的协作传输来满足网络中的业务量需求。另外,由于物理层传输技术的演进对业务承载能力的提升是有限的,为此本文使用新型超蜂窝网络(Hyper Cellular Network,HCN)作为研究的网络架
本文研究了代码推荐的方法,针对高校C语言课程的编程练习,在学生编写程序过程中提供不同粒度的代码推荐方案。学生练习编写程序过程中会由于编程经验不足、语法不熟悉等原因突然暂停住,又因为不能及时得到老师同学的帮助,不知道下一步的编程思路,给学生的编程学习造成很大困难。一些集成开发环境(IDE)都包含了代码推荐功能,但是IDE通常是基于编程语言的静态类型分析对属性、方法和参数列表的推荐,所提出的代码方案往
本文是一篇英译汉翻译实践报告。原文源自米娜·格雷戈里编著的《乌菲齐美术馆与皮蒂宫——绘画,画家及绘画流派》,这是一本关于欧洲绘画艺术的专业书籍。此类文本定会引起国内绘画艺术家或绘画艺术研究者的兴趣,将它翻译出来必能对中国画家或任何想了解欧洲画派以及西方绘画史感兴趣的人提供帮助。文本属于艺术类文本范畴,文中包含了许多专有名词、绘画领域的专门术语等,都为本文作者所不熟悉,这给作者完成翻译任务提出了不小
根据目前研究成果显示,我国人口老龄化情况比原有预想的形势更加严峻,任务也越加紧迫。有预测显示,至2050年我国将有4.83亿老年人口,超过此前国家人口发展战略预测5200万。也就表明,中国老龄人口占比度将上升至34.1%,高出预测4个百分点。自2009年起为积极应对老龄化,我国多次推出相关政策,明确了养老服务体系构建的基本原则,为居家养老服务提供支持政策,鼓励医养结合,倡导社会力量兴办医养结合机构