基于类型感知和模板引导的端到端代码注释生成

来源 :武汉大学 | 被引量 : 0次 | 上传用户:pentagon888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化,数字化的不断推进,社会上各行各业不断产生大量代码来驱动业务的正常高效运转,例如金融领域的量化交易,财务报表的统计分析系统,军事领域各种武器设备的互联互通,作战指挥信息系统等。各种软件信息系统在各种行业里扮演着至关重要的角色,同时需要有大量人员来开发和维护这些系统的代码。但是由于各种原因,代码在开发过程中普遍缺乏充足的注释,随着时间的推移,面对复杂的系统,维护人员和开发人员首先要耗费大量的精力来看懂代码的意思。为此自动为代码生成注释,能够为维护和开发人员节省精力,提升效率。当前传统的代码注释生成方法主要是靠专业领域人员编写规则和模板,然后按照此规则来生成注释,或者是直接将源代码编码后输入到神经网络中直接生成注释。两种方法均有一定弊端,前者需要耗费大量人力来编写规则,且这些规则经常会在一些情况下失效,而且后者则面临生成内容有时无意义,如生成无效的重复短语等。针对这些问题,本文研究如何结合两者的长处,用一定的规则来约束指导神经网络的生成,来确保生成的注释富有意义且语句通顺。为此本文设计了一个双层的神经网络模型,第一层主要用来生成自然语言模板,该模板词汇表只包含最常用的词和一些词汇的类型单词,确保它足够简单,词汇量少,使得第一层模型能够容易的学习到生成模板的规则。第一层模型其输入为由源代码的词向量及其类型和位置向量拼接而成的特征向量,并且使用一层双向循环神经网络进行编码,然后用LSTM进行解码获得模板。第二层用来生成最终的自然语言注释,它的输入为第一层生成的模板和代码特征向量,然后同样使用一层双向循环神经网络进行编码,最后使用带有注意力机制和复制机制的LSTM网络作为解码器,输出代码的自然语言注释。在构建好模型后,我们在一个python数据集上进行了实验,我们的模型在三个主流的衡量指标上,BLEU,METEOR和ROUGE-L均取的了较好的效果,且相较于同期其它的方法,有一定提升。同时我们对模型进行了仔细地分析,探究了各个模块对最终效果的影响,结果表明,我们所提出的模板引导的结构对最终的结果贡献最大。
其他文献
《中华人民共和国公司法》(以下简称《公司法》)第三十二条第三款确立了有限责任公司股权登记的消极对抗力,即未经登记或变更登记,不得对抗第三人。由于该条款的规定较为概括,对股权登记对抗力的适用的范围、条件等问题没有通过立法进行明确,造成了司法实践中该条款适用的混乱和随意,特别是表现在对“第三人”的认定问题上。基于此,该论文结合相关学者观点及审判实践中涉及股权登记对抗力适用的情况,将“第三人”的适用范围
在全球化竞争日益激烈的时代,国内旅游业蓬勃发展,据不完全统计,中国平均2300万人拥有一个海洋公园,目前中国100人中只有8人到过海洋馆。有行业数据显示,水族馆2014年至2019年增加的数量超过以往27年的总和,国内水族馆已接近300家。水族馆行业近年来呈现爆发式增长,海洋数量的逐年攀升和对专业人才的需求也日趋扩大,每个馆的核心竞争力也不约而同的都朝人力资源方向看齐的形势,也得到了行业内的一致认
随着互联网的高速发展,互联网实现了Web1.0到Web2.0的跨越,信息传播也从以前单一的方式变为了互动分享的方式。其中,微博平台得到了广泛的推广。用户们可以通过微博得到当前的热点信息,也可以通过发布微博来分享自己的日常生活或是爱好,微博这种可以互动分享的平台逐渐成为人们生活中必不可少的一部分。但是某些用户或者厂商会因为某种情绪或者某种利益关系发表一些不相关的评论,这些评论严重影响了用户的心情,甚
随着我国经济发展水平的提高和社会主要矛盾的转化,生态环境问题已经成为阻碍我国经济社会发展,影响人民群众生活水平和幸福指数的重要因素。面对日益恶化的生态环境和人民群众的诉求,党和国家高度重视生态文明建设。大学生作为新时代社会主义事业的建设者和接班人,是生态文明建设的生力军,他们所具有的生态文明责任意识和参与意识,直接关系到“美丽中国”建设的成效以及中华民族的永续发展。所以说,培养大学生的生态文明意识
随着经济发展迅速,我国经济结构不断优化和改革,国内外资本市场的衔接与联系程度越趋紧密,企业到资本市场谋求发展的欲望强烈。分拆上市为企业打开新的上市途径,国内证监会对分拆上市模式的认识从开始的摸索到趋于成型。2004年8月中国证监会出台了《关于规范境内上市公司所属企业到境外上市有关问题的通知》,2010年4月13日,证监会允许境内上市公司分拆上市子公司到创业板上市。学者们对这现象开始了研究和探讨,这
消费为生产提供动力,又是生产的最终目的,同时代表着人民对美好生活的向往。不仅如此,消费已经成为中国经济增长的“主引擎”,2019年消费对经济的贡献率达到57.8%。绝对收入假说、生命周期假说、永久收入假说认为决定和影响消费的是居民的收入水平,而收入又会受到各种因素冲击的影响,如疫情冲击、失业冲击、自然灾害冲击、疾病冲击的影响等等。因此,消费可能受到疫情、失业、自然灾害、疾病等因素的冲击而出现不可避
推进国家治理体系和治理能力现代化是促进国富民强的重要方面,是中国特色社会主义现代化事业的重要组成部分。党的十九届五中全会报告指出,基本实现国家治理体系和治理能力现代化是2035年我国基本实现社会主义现代化的远景目标之一。列宁是社会主义国家治理的实践者和开拓者,其国家治理思想体系具有丰富的内涵,对我国国家治理现代化建设有重要的理论意义和现实意义。面对我国社会发展现状,在推进我国国家治理建设过程中,我
健康是人民幸福生活的基础,健康扶贫则是保障贫困人口健康水平和脱离贫困的重要方式。我国县级政府的扶贫政策往往处于宏观调控的“长尾端”,实施健康扶贫的执行难度更大,现实困境更多。实际上,我国现存的农村贫困人口不仅仅是集中在贫困县与贫困村,而是散居在大量非贫困县与非贫困村之中,“插花贫困”现象是扶贫工作不可回避的事实,也是精准扶贫所面临的核心问题,如何统筹规划县级政府的健康扶贫政策,需要深入的调查与分析
经济学家通过实证研究发现了现实金融市场中许多不符合经典金融学理论的市场价格异象,例如动量效应、反转效应、异常波动率等,行为金融学家以投资者是不完全理性的为基础,将情绪引入到投资者偏好和投资者信念中,尝试去解释这些价格异象。为了描述投资者情绪,我们引入了粘性预期、收敛情绪和非收敛情绪的概念,选用过度自信心理代表收敛情绪,随机情绪代表非收敛情绪,在此基础上我们证明了粘性预期和过度自信心理会导致市场价格
《浣纱记》是梁辰鱼作于明代中期的具有代表意义的传奇作品,体现出作者在动荡不安的政治格局下对文人命运的深刻思考,以其独特的叙事艺术彰显出明代生活风尚及思想文化的变动。《浣纱记》不同于其他传奇之处在于其改编自《吴越春秋》,整体叙事呈现出多人物、多线索、多空间的特性,插图呈现往往遵循或是打破原本的剧情预设。图像具有历史叙述的能力,《浣纱记》插图直观地呈现了明朝文人群体的审美风尚及思想变化。其中女性角色“