基于数据集缩减的bug分配

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liwanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在软件开发与维护过程中,bug修复是至关重要的一个环节。快速准确修复bug的关键,是找到能修复bug的开发者,即bug分配。当前人们主要用文本分类方法来解决bug分配问题,然而该方法受到大规模且低质量的数据集的制约。为了提升bug分配的准确率,本文提出基于特征选择和实例选择的数据集缩减方案。该方案包含两方面内容:一是降低数据集的规模,二是提高数据集的质量。本文使用结合特征选择与实例选择的方法来实现这一目标。为了验证缩减方案的有效性,本文选取了两种特征选择方法和实例选择方法,基于Eclipse、Gnome和NetBeans的数据集进行实验。对每一个数据集,实验剔除了70%的属性和50%的实例。实验结果表明,利用缩减的数据集能取得比原始数据集更好的准确率。基于以上三个数据集的实验结果,本文发现特征选择和实例选择的顺序对最终的bug分配结果有很大影响。对一个新的数据集,为了能准确给出最佳的组合选择,本文对组合顺序建立了一个预测模型。实验从Eclipse和Mozilla的bug仓库中分别选取了连续ID号的300000个bug,抽样出不同大小的数据集。每一个数据集中抽取出描述该数据集的18个属性。实验结果表明,基于决策树的预测模型可以取得71.8%的准确率。
其他文献
为了让分布在Internet上的Web服务,不仅能让人们阅读,还能便于计算机有效地利用,有些学者提出了语义Web服务。近年来,伴随着网格计算和云计算技术,在新一代大规模互联网应用
同名是一个人名对应多个真实个体的现象。同名区分就是要将这些混合在一起的真实个体区分开。本文以解决学术资源管理系统中的同名问题为背景,对文献管理中的同名区分问题进
进入21世纪以来,每个研究领域都在快速发展,学术论文数量急剧增加。同时,研究社区也不断壮大。在这种情况下,研究人员去阅读每一篇相关研究领域的学术文章也越来越不切实际。
随着科技的发展,个性化信息检索(Personalize Information Retrieval)作为人工智能的分支得到了快速的发展。伴随着Internet技术的发展和普及,越来越多的用户开始利用搜索引擎
当今网络交流成为人们交流的主要方式之一。可是人们在网络中频繁地交流却也泄露了自己的隐私。因此,如何保护人们的私有信息,成为人们急需要解决的基本问题。为了解决保护私
软件缺陷预测是软件工程领域的一个热点研究方向。它通过分析软件度量值利用机器学习方法预测软件中是否含有缺陷。进而有助于帮助软件开发人员提高软件质量。  软件缺陷预
在过去几年里,随着Internet的普及,P2P流媒体系统用户量快速增长,已成为当前网络最重要的应用之一。典型的P2P流媒体系统如PPLive、PPStream、Skype等都获取了很大的市场份额,其
近年来由于在身份鉴别、视频监控和人机交互等领域的广泛应用前景,人脸识别获得越来越多的关注。现有的大部分人脸识别方法都是研究限定条件下(正面人脸、无遮挡、受控的光照)或
科技的发展进步和网络应用的普及,在给社会带来方便的同时,随之而来的安全问题也日益为人们所关注。密码技术则是保证信息安全的有效手段。随着混沌学及其应用的发展,混沌密
无线传感器网络(WSNs)经常部署在敌方和无人照看的环境中,因此易于受到节点捕获攻击。在节点捕获攻击中,被捕获节点上的密钥和数据等信息可以被敌人提取。但是WSNs中的节点捕