基于隐马尔可夫模型的代码仓库审查时间预测方法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:mygd520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着开源代码库以及版本控制系统的不断发展,许多分布式版本控制系统出现在大家的视野中,Github凭借其拥有众多的开源项目,成为了最受欢迎的平台,拥有超过900万开发者用户。其功能也在不断的发展,例如issue、持续集成功能。Pull-Request(PR)是Github中开发人员进行代码贡献的主要方法,开发人员通过申请PR,请求将自己的代码合并到项目的主分支中。然而,不可能所有人提交的代码都是完美的,都会存在或多或少的问题。因此,代码审查作为PR中的一项活动显得至关重要。代码审查是让审查人员找出开发人员提交代码中的不足,但代码审查需要由人工来完成,开发人员所提交代码的质量以及审查人员的专业程度都会影响到审查所需要的时间,耗时过长的代码审查会影响到整个项目的开发进展。目前有一些研究人员考虑了PR中的诸多初始属性,例如PR创建时间和内容修改量等,他们将这些初始属性作为其构建预测模型的输入属性,来预测审查的持续时间。然而这些方法仅仅考虑了初始属性,忽略了PR生命周期中发生一系列活动的时间性质。本文中,提出了一种使用隐马尔可夫模型(HMM)和开发人员活动的时间序列的新方法,考虑了开发人员活动的时间顺序,提取出PR中的关键活动组成关键活动序列,使用HMM来对序列进行分类。首先本文获取到一个PR的完整活动历史,然后通过进一步的数据筛选,找到其中的关键活动;另外本文还考虑了部分的初始属性,例如commit数和人员经验程度等,将这些初始属性与关键活动相结合,并按其发生的时间顺序排列,构成关键活动序列。然后我们将活动序列按其持续时间中位数分为两类,并训练了两个HMM;通过比较新序列在两个HMM中出现的概率来推断该PR最终的持续时间。此外,我们还复现了其他研究人员使用的预测方式,提取诸多初始属性,使用梯度提升模型(GB)来预测PR持续时间。最后,本文基于这两种预测方式,在Git Hub上选取了五个开源项目进行实验,其结果表明本文提出的模型预测准确率在70%左右,F-measure也达到75%左右,最高达到了82%;在使用GB模型进行预测实验后,将结果进行比较,HMM的各项指标都要略高一些;结果表明,该方法可以有效的在早期识别并预测待审查PR的持续时间。
其他文献
SiC陶瓷作为结构功能一体化材料,广泛应用于高温结构陶瓷组件,半导体器件和金属基复合材料。在这些应用中,经常涉及到熔融金属在SiC陶瓷表面上的润湿性和界面行为。一般地,金
随着人们对可持续发展的日渐重视,开发与研究可商业化的高效新型能源变得迫在眉睫。清洁、高效、廉价易得的氢能已经成为最具发展潜力的二次能源。在众多清洁能源转换应用技术当中,电催化分解水是非常重要的能量转化途径,可以将电能高效地转化为绿色的氢能。在这项技术中催化剂是解决问题的基础。因此,设计具有优异性能的电解水催化剂成为了广大研究者的研究热点。贵金属催化剂的催化性能出色,但其地球丰度小、经济性能差,阻碍
现如今,国内土地价格高昂,建筑物大多采用纵向发展模式,高层与超高层建筑成为主流建筑。其中,医院病房楼又区别于其他高层建筑,流动人口密度大,使得乘客对电梯运载能力提出了更高的要求。传统的单轿厢电梯越来越无法满足人们的要求,为解决这一问题,电梯行业的专家又研制了一种新型电梯——双子电梯。双子电梯是指在井道内安装两部独立运行的轿厢,可以大幅度提升运输能力。但双子电梯系统处于发展前期,其适用于何种建筑物,
梅(Prunus mume Sieb.et Zucc.)是蔷薇科李属多年生核果类植物。梅果实营养丰富,含有多种利于人体代谢的氨基酸,被誉为健康食品。雌蕊是果实形成的基础,而在生产中,经常出现
本研究以自我主导理论(Theory of Self-Authorship)为视角,通过半结构式访谈,深度访谈了15名读博意愿从游移不定到坚定不移的硕士生。综合利用访谈法和文献法,对硕士生读博意
随着化石能源的枯竭和环境污染的加剧,生物质等可再生资源的开发利用受到研究者的普遍关注。乙醇是一种重要的生物质平台分子,其存在产量大、可再生等优点,被广泛应用于油品添加剂、化学品等领域。然而,乙醇在油品中的添加量有限,存在吸湿、能量密度低等缺点,迫切需要实现乙醇的高值化利用。乙醇催化转化到丁醇等高碳醇搭建了生物质乙醇和高性能丁醇的桥梁,对乙醇高值化利用、丁醇的多元化生产都有重要的意义。本论文通过不同
"黄桥烧饼黄又黄,黄黄烧饼慰劳忙,烧饼要用热火烤,军队要靠百姓帮。"这首诞生于1940年的《黄桥烧饼歌》,见证了新四军黄桥战役的辉煌胜利,谱写了军民情深的动人篇章。如今,在
作为一般模糊集的推广,区间值模糊集和区间值直觉模糊集在处理模糊与不确定信息方面更具有优势.本文研究基于一类含参数的区间值三角范数的模糊推理算法,并基于区间值直觉模
随着我国汽车保有量的逐渐上升,交通拥堵,环境污染等问题成为城市治理的难题。为了满足车辆的停车需求而修建的停车位占用了大量土地资源,但仍然不能解决停车难的问题。而拥
行人在道路环境中往往处于弱势,行人碰撞事故占交通事故的很大一部分。现有的人体碰撞模型大都无法模拟真实情况下肌肉的主动响应,无法对碰撞事故过程中人体头颈部损伤进行全面的研究。本文着重关注颈部肌肉主动收缩效应在行人碰撞事故中对行人头颈响应的影响。本文基于湖南大学头颈基础有限元模型和颅脑有限元模型,建立了具有详细颈部肌肉、颈部脊髓以及颅脑结构的混合头颈有限元模型,在对该模型进行前后冲击和侧向冲击的有效性