面向软件领域文档检索的自动化查询重构方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:wgz204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着产业互联网的高速发展,软件和互联网行业在近几年迎来了新的增长点。行业的发展加速了软件领域知识和技能的迭代,软件开发人员需要掌握大量的编程技能,当遇到编程相关的问题时,他们通常会通过搜索引擎在编程问答网站(例如Stack Overflow)上查找问题的答案。与通用领域的检索不同,软件领域的检索是高度专业化的,查询和文档内容中包含着专业术语和符号,这使得开发人员很难高效地定位他们想要的信息。为此,开发人员不得不通过增加编程语言或平台限制、删除查询中的特异信息等方式重构他们的查询。对于新手开发人员来说,查询重构是困难的,对于熟练的开发人员来说,查询重构又是非常耗时的。本文希望提出一种自动化的查询重构方法来帮助开发人员实现高效且精确的查询重构,进而提高查询的效率和查询结果的质量。本文首先基于Stack Overflow上用户的活动日志进行了一项实证研究,研究结果显示软件领域的查询重构具有许多该领域特有的模式,但在重构过程中大多数情况下用户不会引入大幅的修改。基于以上发现,本文认为通过设计启发式规则来实现软件领域的查询重构是费时且易错的,相反,这些不涉及大幅修改的查询重构模式可以通过深度学习来建模。于是本文提出了一个基于深度学习的软件领域的查询重构模型,与先前的研究不同,模型采用端到端结构,并且是基于现实世界中大规模的软件领域查询重构语料训练得到的。此外,模型针对软件领域进行了优化,能够更好地建模软件领域查询的语义特征。本文从与用户手工重构的差异和查询的检索性能两个方面评估了本文方法的性能,对比五个目前最先进的基线方法,本文方法与用户手工重构结果更接近,在Exact Match指标上取得了5.6%到33.5%的提升,并且具有更高的检索性能,果显示85.7%的用户认为本文方法给出的查询重构结果完全符合预期或者超出了预期,剩余的14.3%的用户也认为重构结果基本符合他们的预期。最后,为了方便开发人员使用查询重构模型,本文设计并实现了一个用于软件领域查询重构的浏览器插件,插件可以为用户软件领域的查询提供若干重构建议,来自35位开发人员的用户调研结果证实了插件的有效性。
其他文献
安全发展已成为我国经济社会发展的重要战略,而建筑业安全生产形势依然严峻。起重伤害事故作为重要的建筑施工安全生产事故类型之一,时有发生。该类事故对象中,施工升降机是聚集人数最多的垂直运输设备,一旦发生事故极易造成严重后果,因此系统研究施工升降机事故防控,对建筑安全生产具有重要意义。在施工升降机事故中,吊笼坠落是常发生的事故伤害形式,往往造成工人生命安全和项目财产安全的严重损失。因此,本文以施工升降机
航空发动机是一个复杂的机械系统,其工作条件非常恶劣:转动构件承受高转速产生的离心力以及种种环境应力的影响;在总体重量和体积受限条件下产生巨大的推动力;要求长时间可靠地工作且其工作机能还要能灵活正确地调节控制等。因此对发动机的寿命及其可靠性研究一直是航空发动机研制的重要研究内容。航空发动机的盘叶片系统是发动机重要的转动部件,也是发动机压气机设计与研究的主要研究对象。盘叶片系统可分为叶片和轮盘两部分,
钢管混凝土结构因具有承载力高、延性和韧性好、耐火性能优越、施工方便、经济效益突出等特点,近年来被大量运用于超高层和高层建筑中。其特殊的施工模式充分利用了钢管和早龄期混凝土的强度和刚度,较好地解决了混凝土养护时间长与施工进度之间的矛盾。因此,早龄期钢管混凝土的变形控制和承载力随混凝土龄期的变化规律是其施工变形控制以及施工安全的关键。通常把龄期小于7d的混凝土称为早龄期混凝土,本文主要研究早龄期钢管混
减隔震技术在国内研究多年,已经在工程中普遍推广应用,滑移隔震体系在减隔震上有独特优势,但是控制位移上有缺陷,普遍研究比较多的叠层橡胶垫隔震体系耗能能力较弱,承载能力不强。本文针对目前隔震装置的一些缺点或不足之处,设计研究一种新型分离式隔震装置,这种新型隔震装置具有摩擦滑移支座的耗能能力,叠层橡胶垫支座稳定性、控制位移和回复能力,在构造设计上基于可装配式的理念,在实际中有更大的适用性。本文首先用理论
近年来,随着污水排放标准不断提高,大部分城市污水处理厂尾水满足国家一级A排放标准,但其水质仍与类四类水差距较大。污水处理厂尾水直接排放将对受纳水体造成污染,尾水的深度处理尤其是脱氮处理具有十分重要的环保意义。生物接触氧化工艺具有污染物去除效果好、能耗低、占地面积小且运行维护简便等优点,在污水处理厂尾水净化工程中应用较少。本文分别采用复合脱氮菌(BP)、贫营养脱氮菌(ODN)和取自活性污泥培养菌(A
近年来,我国汽车保有量不断增加,引发的能源危机和环境污染问题越来越严重,而发动机燃油的雾化质量直接影响着汽车的动力性、经济性和有害物排放。对燃料喷雾特性的研究一般采用试验和计算两种手段,现有喷雾试验常在光学发动机中进行,喷雾图像处理及喷雾特性参数的测量就显得尤为重要。鉴于此,本文基于课题组的光学发动机进行燃料喷雾测试,并运用数字图像处理技术,实现对喷雾图像的处理与宏观特性参数测量。首先,利用高速摄
表面质量检测是保证产品质量和美观度的关键环节,同时也是生产线真正实现自动化所必须突破的瓶颈。近年来关于漫反射表面缺陷自动化检测方法的研究引起了包括汽车生产公司等在内的越来越多的企业的重视。目前,制造企业在检测过程中普遍还是采取人工检测的方式,即通过人眼在不同光照强度与不同角度的光源下对产品的涂装表面进行检测。这种方法存在工人劳动强度大,工作环境差,检测效率低和检测成本高的问题。本研究试图通过优化检
目的:已有前瞻性研究显示,体内硒或铬水平升高与甘油三酯水平降低存在显著的关联性,但此前的研究多为单一金属的研究。我们进行了多种金属复合暴露与血脂异常关联性的前瞻性研究,为我国中老年人群血脂异常的防治工作提供科学依据。方法:基于本队列已经开展的三个巢式病例对照(新发冠心病、糖尿病、脑卒中)研究人群,排除基线患有癌症、心血管疾病、血脂异常及有缺失信息的人群后,共纳入2947名研究对象。血脂异常确诊标准
纵观我国地震史,地震的发生具有不确定性,多次破坏性大震发生在低烈度区,且同时由于设计标准偏低,结构破坏严重。桥梁结构作为交通运输的主要承担者之一,目前相关学者们在其减隔震上做了很多有意义的研究,发明制作了非常多的隔震消能装置,但这些装置或多或少存在不足。基于此,本文针对环形钢丝绳-钢球型组合隔震支座水平剪切性能及其减震效果进行研究,主要研究内容如下:1、根据试制14个环形钢丝绳减振器水平剪切性能的
随着我国老龄化程度的提高,小微建筑工程中高龄工人的比例在不断增加。在建筑行业中,跌倒是一类主要的致死性伤害类型,跌倒在高龄工人中发生的比例要高于年轻人,跌倒事件的发生往往会带来直接的肢体伤害及其二次衍生伤害,给高龄工人自身及家庭、社会都带来了极大的医疗经济负担,预测跌倒风险有助于减少跌倒事件的发生。本文的研究对象包括高龄人员54名,其中包含名31名女性和23名男性。通过多重分形算法对高龄工人头颈部