基于深度学习的智能合约漏洞检测与分析方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:resident_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济需求的不断发展,区块链作为一项新技术发展起来,并在学术研究和实际工业应用中都引起了广泛的关注。以太坊是当下最流行的区块链平台之一,智能合约在关键的分布式应用程序中充当自治代理,并持有大量加密货币以执行可信交易和协议。以太坊目前已部署数万个智能合约,控制了价值数十亿美元的以太坊的加密货币,由攻击者引起的以太坊智能合约安全事件也层出不穷,资金损失尤为严重。智能合约是使用高级语言并由开发人员人为编写,通常使用Solidity语言,相关技术尚不成熟,因此智能合约存在漏洞难以避免。近几年,智能合约安全问题逐渐吸引了学者的注意,出现了一些相关的漏洞检测框架和工具,但其表现出一些明显的缺点,如检测准确率低、执行环境复杂等,其检测效果不能令人满意。智能合约数量不断快速增长,新的智能合约漏洞检测方法的研究成为形势所趋。为了保证智能合约漏洞检测效果,本文提出了基于深度学习算法的智能合约漏洞检测方法,实现了对以太坊智能合约最常见的整数下溢漏洞、整数上溢漏洞、未检查返回值漏洞、交易顺序依赖漏洞、时间戳依赖漏洞和重入漏洞等6种漏洞的有效检测。通过大量实验证明本文所提出的智能合约漏洞检测方法适合目前的智能合约漏洞检测,并提升了漏洞检测性能。本文的主要贡献包括以下:(1)提出了基于操作码n-gram的智能合约漏洞检测方法。通过对以太坊智能合约源码编译以及字节码解析得到操作码数据流,经过对Solidity源码、字节码与操作码进行分析提出操作码简化抽象规则,进而对操作码进行简化。针对抽象后的操作码数据流,采用n-gram算法模型对其进行切分,得到bigram操作码特征片段,然后通过定义特征值计算方法得到特征值,进而构建特征矩阵。并采用Ov R策略构建多种机器学习多标签分类模型,对采集到的庞大的智能合约数据集进行训练实验,实现了对以太坊智能合约种漏洞的检测。(2)提出了基于操作码序列的深度学习智能合约漏洞检测方法。通过对以太坊智能合约源码编译以及字节码解析得到操作码数据流,根据以太坊黄皮书中操作码与16进制数value的对应关系构建字典,将操作码数据流转化为用16进制数表示的操作码序列,通过对操作码序列进行分析,设计循环神经网络、长短期记忆神经网络、CNN-Bi GRU和CNN-LSTM等4种不同的深度学习网络结构进行漏洞检测。(3)通过实时抓取和网上采集构建了庞大的以太坊智能合约漏洞数据集,并通过大量实验对智能合约漏洞检测方法进行验证。为获取充足的智能合约数据集,本文利用网络爬虫技术设计实现了智能合约爬虫工具,通过长时间抓取,实时获取了大量的以太坊智能合约数据。为更加充实数据集,同时在网上采集了真实有效的以太坊智能合约,并通过工具与人工相结合对智能合约数据进行标签标注,由此构建了一个庞大且时新的多标签智能合约漏洞数据集,其中包含47527条智能合约数据。经大量的实验证明,基于以太坊智能合约操作码序列的CNN-LSTM分类模型对以太坊智能合约的6种漏洞的检测效果最好,整数下溢漏洞、整数上溢漏洞、未检查返回值漏洞、交易顺序依赖漏洞、时间戳依赖漏洞和重入漏洞的F1-score的值分别达到了0.87、0.84、0.83、0.82、0.80、0.75,6种漏洞整体性能评估指标macroF1值达到82.1%,同时,在性能方面一定程度上也优于检测工具。
其他文献
文本情感分析是自然语言处理领域的一个重要任务,它是一种以提炼文本情感内容为目的的文本分类。根据分析粒度的不同,文本情感分析可以分为对整篇文章的情感分析、对某段话的情感分析和对某段话中各个方面的情感分析,其中,对某段话中各个方面进行情感分析是一种细粒度的情感分析。目前,针对整篇文章或整个句子进行情感分析的研究技术已经比较成熟,并取得了较好的效果。但是,对文本进行整体情感分析会掩盖文本中不同方面的不同
随着互联网的普及和移动应用的快速发展,人们越来越习惯于在网络上获取信息。传统的医疗问诊需要人们去医院挂号进行诊断,随着网络技术的发展,越来越多的医院推出了在线问诊功能。人们渐渐习惯于去搜索引擎或者专门的问答网站,去搜索或提问相关症状,并从专业医生的回答中获得参考。但是专业医生资源有限,而绝大多数医疗问题集中在类如感冒发烧等常见疾病上,这些常见医疗问题已有的回答非常具有参考意义。如何通过分析已有的医
句法分析是自然语言处理中的一项基础核心技术,其目标是根据给定的语法理论,自动识别分析句子中各种成分之间的关系,最终得到句法树,在机器翻译等自然语言处理任务中有着广泛的应用。当前主流的神经网络句法分析模型依赖大规模标注数据,但是由于汉语不像英语有丰富的词性变化等表层信息来表示句法结构,导致汉语树库规模较小,人工标注成本高,短期内难以扩大。因此,如何利用现有的标注树库自动进行数据增强成为研究的焦点。在
现有的问答系统涵盖了模板方式、图查询方式、表示学习方式、深度学习方式,缺乏对复杂中文问句的语义理解。中文复杂问句有问句类型的多样性、问句实体的多态性、问句语义的模糊性三方面的复杂性,导致了问答系统在中文复杂问句方面表现不如人意。此外,中文复杂语句问答系统缺乏成熟的部署方案,人工标注、答案处理、系统的划分结构、需求变更导致的再次开发影响系统的成本、推理能力、鲁棒性、可迭代能力。为了解决上述问题,本文
近年来城市慢行交通逐渐受到了重视,人们对步行环境提出了更高的要求。但是,大城市机动化水平持续增长,为了满足机动车的需求,不断拓宽的机动车道侵占了慢行空间,两者的矛盾日益凸显。实践证明,共享街道是解决此问题的有效对策之一。与传统的街道规划理念不同,共享街道通过特殊的断面设计实现了道路使用者的融合,还原了街道交通与生活的双重功能。本文在国外规划经验的基础上,建立了适宜我国实施街道共享的判别指标,依次通
增强现实是智能时代极具前沿的计算机视觉应用技术,已逐渐应用到各个领域,其中通信网运维系统就是一个重要的研究方向。三维注册和虚实融合是实现增强现实的关键技术。三维注册是根据3D-2D点对实时估计相机位姿并获得虚拟物体相对于真实场景的位置;虚实融合是根据三维注册信息匹配出对应的虚拟物体,实现虚拟信息与真实场景的融合叠加。现有的增强现实技术在应用到通信网运维系统中时会面临图像识别延时较大、位姿估计误差大
虚拟化云计算技术的发展为解决高分辨率视频监控系统产生大量的存储和网络带宽问题提供了解决方案,然而云计算平台在为用户提供灵活便利的服务的同时其数据保护与安全共享问题尚未得到充分解决。目前现有的行业研究和解决方案如利用密码学的方法来解决访问控制的问题虽然能够保证某种程度的安全,但仍然存在以下方面的不足:一方面,基于属性的加密技术有效地将访问控制与数据加密结合在一起,能够用于确保物联网系统中数据的安全,
随着城市化进程的发展和居民生活水平的提高,城市内部机动车保有量的同比增长率远高于城市道路长度的同比增长率,道路供给与出行需求之间的矛盾逐渐加大。为了在有限的道路承载能力上提升出行效率,提高出行体验,对未来道路状况预测的研究必不可少。依托国家自然基金,徐维祥教授团队尝试实现未来道路状况透明化。在自然基金项目的指导下,徐维祥教授团队在路网交通状态、车联网技术等方面做了一系列研究工作,提出了出行计划。本
随着智能手机和互联网技术的发展和成熟,短视频行业影响力越来越大,刷短视频已成为人们日常生活中必不可少的娱乐活动,许多用户都将短视频当做一种新的社交方式。面对庞大的短视频用户群体,优化短视频软件的用户体验,增加用户粘性是一个增强短视频软件竞争力的重要方向。本文设计并实现了基于机型画像的音视频生产决策平台,旨在自动化生成机型画像数据并结合画像数据进行策略决策,进而优化各音视频生产功能的运行配置,使每一
随着临床医学领域的快速发展,越来越多的研究成果以临床试验文献的形式不断发表,大量的临床证据以非结构化的文本形式蕴含在文献中。临床证据是临床实践指南制定与更新的重要依据,因此从这些非结构化的临床试验文献文本中自动化地抽取出基础的证据信息如药物名称、疾病名称以及疗效指标,对临床实践指南的制定与更新起着至关重要的作用。然而,目前缺乏用于临床试验文献中药物名称、疾病名称以及疗效指标抽取的标准数据集,从而在