面向大规模开源贡献者的开发行为分析

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:sphjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于开源社区的开发人员数目呈指数型增长态势,数以百万计的软件开发人员正在使用开源软件(Open Source Software,OSS)托管平台来托管其代码并相互协作。软件仓库存储有关软件开发和维护的大量数据,软件仓库挖掘(Mining Software Repositories,MSR)是一直是软件工程领域的研究热点。开源开发者人数的激增,也为项目核心开发者在进行团队扩张决策的时候带来难题,需要有开发者能力和以往贡献统计分析的评估,为核心开发者作出决策时提供参照,但开源平台目前提供的开发者页面信息主要是基础信息,没有对开发者的开发能力和历史开发行为进行分析处理,探索开发行为的规律,对未来的开发行为进行预测。相比于传统商业软件,托管平台的开源特性可以让我们便捷地获取到项目的开发历史。鉴于此,本文主要围绕开源社区开发者的开发行为数据进行贡献度的度量评估以及挖掘行为数据中存在的规律。本文主要的研究工作如下所示:1.开源社区开发者贡献度度量方法针对当前对开源社区开发者的研究工作大多数专注于基础开发行为数据,缺乏对开发者的贡献历史和开发能力的全面评估。基于开源社区平台中完整的开发历史和开发者行为数据,我们提出了开发人员贡献度度量方法,主要对开发者的历史开发行为进行评估和度量。提出的贡献度度量主要可分为三个维度的度量,包括代码级贡献、项目级贡献和任务级贡献,每个维度的度量值具有多个指标,可以更加全面准确地评估开发者的贡献度。将各个维度的度量值根据权重层次分析法(The analytic hierarchy process,AHP)赋予相应的权重,相加后得到最终的开发者贡献度,根据贡献度形成相应的排行榜。经过实验验证,该度量结果具有准确性和有效性。2.基于NLP(Natural Language Processing)词嵌入模型的编程行为预测方法对开发人员的编程行为进行预测,可以帮助开发者提高开发效率,而且还能对项目模块的组织方法进行优化优化。但当前这个方面的研究工作也比较少,我们提出了基于NLP的词嵌入(word embedding)模型来生成开源社区开发者的编程行为的预测方法。首先将开发者的历史编程行为数据从软件仓库中提取出来,将数据进行转换操作后嵌入多维向量空间中以捕获数据中的潜在规律,经过训练形成反映开发行为数据语义关系的特征向量矩阵,生成训练完成的预测模型,最后基于预测模型预测特定开发人员的下一个编程行为。在五个开源项目上的实验表明,我们所提出的预测方法的预测准确率平均可以达到50%左右,说明它可以挖掘出开发行为的规律并有效地利用开发规律来预测开发人员的编程行为,表明在实际开发中,我们可以对开发者的开发工作提供有价值的建议。
其他文献
三维超声计算机断层扫描(Three dimensional ultrasonic computed tomography,简称3D USCT)在乳腺癌早期检测筛查及诊断等方面有很好的效果,有助于乳腺癌的及早发现与治疗,提高治愈机率。但在3D USCT系统中,换能器的延迟、位置偏差和温度误差等系统误差会影响到重建图像的质量,其中换能器延迟和位置偏差影响最大,故而需进行换能器的校正。论文基于与浙江衡玖
学位
流数据变化速度快,价值密度稀疏且只能单次访问的特性,导致难以对其价值进行有效评估。采样作为数据价值评估的重要手段,现有在全量流数据上采样会产生过多存储计算资源浪费,访问部分流数据的采样评估方法易丢失蕴含大量离散值的流数据的价值和信息。基于上述问题,如何高效精准的对流数据进行采样使得能够准确的评估其价值成为一个尚待解决的问题。本文针对此问题展开研究,主要贡献如下:首先,针对全量流数据采样产生资源浪费
学位
云计算由于其海量存储和计算而快速发展起来,为个人和组织提供了存储和计算服务。为了保护存储在云中的数据隐私,内容提供商通常会对其数据进行加密。然而云中存在许多数据共享场景,这种存储模式相应的增加了用户之间共享数据的困难。代理重加密是解决数据共享的重要技术手段,让云服务提供商充当代理方来转换密文。但当用户退出时,现有的撤销方案忽视了撤销的用户可能会解密撤销前访问的数据,这会导致内容提供商存储在云服务提
学位
近年来,三维网格模型分割成为计算机图形、图像学的研究热点,越来越多的研究者深入网格分割领域,促使分割技术不断发展,但现有的网格分割方法大多不能完全适用于不同种类的模型,这些三维分割算法或多、或少存在各自的分割缺陷。仅仅利用传统形状直径函数的三维分割算法,存在计算量大、无法较好的适应复杂模型等缺点。为了使三维分割能够较好的适用于不同类别的模型,提高分割速度、增强分割鲁棒性和提高模型分割准确度等,本文
学位
可达性查询是图上的基本操作之一,用于判断图中两结点之间是否存在可达路径。现有的可达性查询算法可分为两类,第一类是直接在原图G上构建索引来回答查询,但其查询性能会受图规模的影响。第二类是首先将原图G进行规约,得到规模较小的规约图Gr,然后在Gr上构建索引来回答查询。现有的图规约算法可以显著减小原图G的规模,但是无法保证规约图上的查询性能。本文针对现有方法存在的问题展开研究,具体研究内容如下。首先,提
学位
随着超级计算机的迅速发展和E级计算时代的到来,计算科学开始发挥越来越重要的作用。计算流体力学(Computational Fluid Dynamics,CFD)作为计算科学的一个重要分支,如今在航空航天航海等领域的应用也愈加广泛,其中包括国产大客机研制、载人航天与深空探测等国家重大工程。基于CFD开展相关设计与研发工作,首先需要对计算域进行空间离散,即网格划分。相比于结构网格和笛卡尔网格,非结构网
学位
知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系
学位
无差拍预测电流控制(dead-beat predictive current control, DPCC)因其响应迅速而在电机控制领域具有较大应用潜力,然而受参数敏感影响,该方法鲁棒性不高。为此,文中提出一种结合参数自适应的永磁同步电机(permanent magnet synchronous machine, PMSM)电流无差拍控制方法,以解决无差拍控制在参数失调下的鲁棒性问题。首先,介绍无差
期刊
随着互联网医疗事业的发展,医疗的智能化、信息化成为发展趋势。电子病历存储了丰富的患者诊疗数据,是实现智能化、数字化医疗信息建设的重要基础。但是,大部分电子病历都以自然语言方式录入的医疗文本格式进行保存。想要从这些非结构化、冗余且复杂度极高的医疗文本数据中直接获取高价值的内容是非常困难的,同时也不能直接使用人工智能算法对这些医疗文本进行深一步的挖掘与分析。因此,电子病历的结构化问题成为人工智能时代研
学位
机器阅读理解具有处理自然语言数据的能力,在智能信息检索、智能客服等多个领域都有重要作用,是实现通用型人工智能的关键技术之一,长期受到学术界和工业界的关注。伴随着深度学习技术的快速发展,机器阅读理解模型在一些单篇章短文本数据集上表现卓越,但这些模型难以应用于多篇章长文本阅读理解问题。现有模型一般将多篇章长文本切分为多个段落,通过集成不同段落的候选答案完成阅读理解,但这些方法存在答案被截断、文本整体信
学位