【摘 要】
:
计算机技术的飞速发展对各行业的研究和生产起到了巨大的推动作用,而计算机编程作为其中不可或缺的工具被越来越多地投入生产和使用。出于对大量计算机程序生成和维护的需要,代码智能应运而生,代码自动修复是其中的一个重要分支。代码自动修复旨在在没有人工干预的条件下,利用计算机程序自动修复代码中存在的语法或语义错误。随着深度学习的发展,研究者们出于自然语言和编程语言的共通性,利用自然语言处理方法解决代码自动修复
论文部分内容阅读
计算机技术的飞速发展对各行业的研究和生产起到了巨大的推动作用,而计算机编程作为其中不可或缺的工具被越来越多地投入生产和使用。出于对大量计算机程序生成和维护的需要,代码智能应运而生,代码自动修复是其中的一个重要分支。代码自动修复旨在在没有人工干预的条件下,利用计算机程序自动修复代码中存在的语法或语义错误。随着深度学习的发展,研究者们出于自然语言和编程语言的共通性,利用自然语言处理方法解决代码自动修复问题。现有的研究大多缺乏对代码层次结构的挖掘,更缺少对代码语法规则的提取。另外,模型输出结果的语法错误也是影响任务发展的因素之一。上述问题既是代码自动修复发展的重点研究方向,也是研究的难点所在。本文在上述难点的基础上进行研究,主要工作包括:第一,针对现有的深度学习模型仅考虑到输入代码的序列信息而缺乏对代码蕴含的层次结构信息进行建模的问题,本课题在序列到序列深度模型的基础上,进行了对于代码结构层次化信息的挖掘。模型使用规则作为基本元素,提取代码中的抽象语法树结构作为挖掘对象,从节点的位置向量和基于节点距离的自注意力机制两个角度,分别进行了对于节点在语法树中深度信息和距离信息的挖掘。实验证明,挖掘代码层次结构化信息的模型比仅仅考虑代码序列信息的模型更好地学习了代码的结构,在开源数据集上取得了更好的效果。第二,针对现有的深度学习模型对代码蕴含的语法规则信息理解不足的问题,提出了同时编码词汇和规则的模型。一方面尝试在规则词向量中融入词汇词向量信息,另一方面通过两个编码器分别编码词汇和规则,并在编码过程中进行基于规则和词汇联系的注意力计算,更深度地学习到规则之间的关系。在解码器端则使用不同的交互注意力策略。在开源数据集上的实验证明,同时编码词汇和规则的模型在性能上优于仅编码词汇或仅编码规则的模型。第三,针对现有深度学习模型的输出结果可能不合语法规则的问题,提出了基于抽象语法树的集束搜索算法,在解码阶段利用已生成的节点构造抽象语法树,并通过对节点指针的维护限制下一步节点的预测,使输出结果更符合标准语法规范。另外,针对现有评测指标的问题,分别从语法和结构维度提出了新的评价指标作为辅助。实验证明,基于抽象语法树的集束搜索算法很好地规避了低级语法错误的产生,并在一定程度上提高了模型的性能。
其他文献
随着我国对生态环境保护问题逐步提高重视程度,提高生态系统生产总值的管理水平,加快建立健全货币化的生态补偿制度,以货币化手段进行生态权益交易,保障生态相关主体的利益,成为我国近年来在量化方面建立健全生态环境保护制度的探索。在这种趋势下,探索多元化生态补偿模式,提高对各类利益相关者权益的整体性保护水平,切实建立健全污染权属管理制度成为我国在生态环境保护和污染治理方面的重要发展趋势。随着《国务院关于落实
微小球体是众多工程领域极其重要的元器件形态,其表面精度是衡量其质量和可靠性的重要指标之一。高精度的微小球体表面缺陷检测方法的检测效率通常较低,而且对检测环境要求严格,因此,微小球体表面缺陷检测方法的高效率、高精度、高环境适应性成为目前该领域研究的瓶颈问题。为满足我国国防、军事、工业制造等领域对微小球体表面高精度检测的需要,同时针对现有方法存在的主要问题,本文设计了一种暗场成像结合移相干涉的微小球体
生态文明建设作为十八大重点推进的战略措施,其建设的目标随着时间进程的推进,已经从对环境控制量的关注逐渐延伸至对环境影响要素质的内涵分析。同时新一轮国土空间规划的推进,县域城镇自然资源整合促使人们对于县域城镇空间的碳活动越发关注,本文从碳效益角度着手,通过指标体系的形式对县域城镇空间内的各项碳活动进行多维度辨析。目前国内外缺乏对于城镇空间的碳效益概念界定与相关实例,但对于碳相关类的城市指标体系研究较
以视觉传感器为核心的同步定位与地图构建技术(Visual SLAM)是移动机器人的关键技术,使机器人能够在未知环境中估计自身运动和构建环境模型,是对移动机器人进行深入研究和应用的重要前提。当前基于几何的传统视觉SLAM方法将工作环境限定为静态场景,当受到动态物体干扰时会出现较大的定位漂移和建图拖影、畸变;基于语义信息的视觉SLAM方法通过训练神经网络对动态物体进行检测和移除,消除了如行人、车辆等常
工程项目是投资项目里较为重要的一种,包括投资与建设行为的项目决策和执行活动。工程项目管理的实质是运用系统工程的观点、理论和方法,实现对工程建设进行全过程和全方位的管理,以达到工程项目的最终目标。工程项目管理策略的研究有利于工程项目顺利高效地进行,研究以哈尔滨君安消防智能化工程有限公司(以下简称君安公司)为研究对象,对君安公司的工程项目管理策略进行研究。在研究中,首先对工程项目管理策略的相关理论进行
车辆轨迹预测已经成为众多领域的热点研究问题。对于个体出行者而言,车辆轨预测可以辅助优化出行者的出行路线,做出最佳出行决策,规避交通拥堵路段,提高出行效率,降低出行成本,同时也能提升出行者的驾乘体验。对于交通系统而言,车辆轨迹预测可以提前感知未来一段时间内的交通运行状态和发展趋势,为交通系统的运行状态优化提供依据,从而缓解整个交通系统的拥堵问题,促进交通系统高效、健康、可持续地发展。与此同时,随着城
在活体细胞成像领域,光学显微技术以其无损、非接触成像的性质在众多方法中脱颖而出,而光学衍射极限的存在限制了其成像分辨率。为了实现对更小尺寸细胞及亚细胞级别生物样品的观察,提高光学显微技术成像分辨率具有重要意义。共焦显微技术在轴向层析能力方面具有独特的优势,但其横向分辨率仅限于普通宽场显微技术的1.4倍,现有改进方法都存在诸多局限性。本课题针对共焦显微技术横向分辨率低的问题,从空间谱估计理论角度出发
组合测试是实现高覆盖率测试的有效方法,可以用尽可能少的测试用例实现高的测试覆盖率,在组合测试中,在已知部分测试用例集运行结果时,如何能够根据引发系统故障的测试用例进行快速有效的定位故障是一个重要的问题,研究组合测试快速故障定位技术有助于帮助测试人员找寻故障来源并进行有效的修正以实现被测系统的改进。嵌入式软件的输入具有时序特性,包括输入参数次序以及参数的注入时刻,其中注入时刻是包含输入次序的,输入次
在传统伺服系统设计过程中,控制器设计的可配置指标少,不能完整或准确反映机构的质量及约束特性,造成控制器设计与原理样机匹配度不高,无法实现控制器或机构的最优化设计。同时,传统设计方法设计流程迭代周期长,且可承受的迭代次数有限,造成设计效率不高,试验成本高昂。本课题将依靠联合仿真技术完成导弹伺服系统的仿真,可以帮助设计人员摆脱物理样机的束缚,降低实验的成本,可以较快地完成对于导弹伺服系统的设计与优化。
近年来,人脸识别一直是模式识别、图像处理和机器视觉等领域的研究热点之一。素描人像识别作为一个难题,一直以来没有一个非常有效的解决方案,它是依据专业画家手绘的素描人像进行的人脸识别,素描人像识别主要在公安司法案件侦破和寻找走失人员中进行应用,在案件没有犯罪嫌疑人或走失人员的确定照片时,通过对素描人像图与人脸照片的比对,它可以帮助调查人员缩小目标范围。现阶段在该方面的研究绝大多数是将照片转化为类素描的