不平衡数据的软件缺陷预测策略设计

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:t573249005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测是软件测试领域的一个研究热点,它能够指导测试人员分配有限的测试资源,优先用于有缺陷倾向的模块,从而在节约成本的同时尽可能多的发现错误,保证软件的质量。本文针对软件缺陷预测做了以下研究:首先,对于数据集类不平衡和支持向量机参数选择这两个问题是分开进行解决的。本文提出了同步解决这两个问题的思路,旨在得到在有限的测试资源内缺陷检出率更多的软件缺陷预测模型。本文我们提出了基于支持向量机的混合多目标布谷鸟欠采样软件缺陷预测模型,将缺陷检出率与缺陷误报率作为算法的目标,采用混合多目标布谷鸟算法同时对无缺陷模块与支持向量机参数同步选择,并针对无缺陷模块选择的决策区域范围提出了三种策略。其中三种策略分别为:(1)从所有的无缺陷模块中选取需要的模块;(2)采用K-means算法对无缺陷模块进行聚类处理,从每个簇内选择的无缺陷模块数始终等于每个簇内无缺陷模块占总模块数量的比例;(3)采用K-means算法对无缺陷模块进行处理,从模块数最多的簇内选择所需要的模块。为了验证同步解决两个问题的缺陷预测模型性能,选择公开数据库Promise中的8组数据,并与8个缺陷预测模型进行比较,结果表明我们所提的方法策略三是有效的。其次,分析经典过采样算法SMOTE的不足,提出了基于支持向量机的过采样软件缺陷预测模型,基本思想为采用混合多目标算法同时对SMOTE中的近邻插值数和支持向量机参数进行优化。实验表明,所提模型能有效解决SMOTE算法的不足,同时有效的提高了软件缺陷预测模型的预测能力。最后,针对跨项目软件缺陷预测中数据的分布不一致和数据集类不平衡这两个问题,提出了一种三阶段数据选择的跨项目软件缺陷预测模型。从软件项目的选择、实例模块的选择、不平衡三个阶段构建了跨项目的软件缺陷预测模型。在软件项目选择阶段,提出了混合相似性度量选择软件项目;在实例模块选择阶段,采用Burak过滤法进行选择;在数据不平衡阶段,采用前边所提的采样方法构建软件缺陷预测模型。实验结果表明,所提的两种模型相比现有的其它七种跨项目软件缺陷预测模型性能有一定的提高。
其他文献
为了挖掘和筛选耐盐水稻种质资源,以课题组自育的114份高世代育种株系和引进的138份种质资源为供试材料,在三叶一心期用浓度为0.5%的NaCl溶液进行苗期耐盐性鉴定和评价。结果
赏析提要:此作是林散之先生晚年的鸿篇巨制,先后在南京、北京参展,相继5次发表。主要特点有三:多体并存,尺幅巨大,影响深远。美中不足的是缺少印章。
个挂化信息服务系统是建立在海量数据挖掘基础上的一种高级智能网络平台,以帮助网站为其用户提供完全个性化的决策支持和信息服务。个性化信息服务网络系统以网络资源建设与共
中日甲午战争也被称之为第一次中日战争,这一次战争以中国的失败告终,成为我国人民心中不可磨灭的屈辱印迹。中日甲午战争事变后,我国签订了第一个丧权辱国的条约-《马关条约
运用文献资料法对高校体育课程思政的实施进行研究。结果表明,高校体育课程思政的实施是时代发展的需要、体育课程改革的需要及大学生自身成长的需要。体育课程自身的优势、
为总结“五五”普法以来江苏省侨办系统开展侨法学习宣传、贯彻落实工作成果,交流侨法宣传以及社区侨务工作经验,江苏省侨办于9月1日在苏州市召开了全省侨办系统“五五”普法“
青海可可西里地区是世界上研究最少的地区,这几年来,伴随着我国旅游行业的进一步发展,可可西里自然保护区的生态环境面临着前所未有的严峻挑战,在此基础之上,本文将重点探究
产品信息模型是CAD/CAPP/CAM集成应用的核心,当前由于产品信息模型的复杂性和现有技术的局限性,集成的全局产品信息模型还难以完全实现,亟待进一步研究。针对这一问题,提出了一种新的针对模块化产品的解决方法,并对模块信息模型的结构和内容进行了阐述和研究,最后以变速箱模块为例,对模型进行了深入的分析。这些研究对产品信息模型的创建具有重要的指导意义和应用价值。
在知识经济快速发展的新时代,高校之间的竞争就是人才的竞争,因此,我国高校要注重对高素质人才的大力培养。在高校学生教育管理工作中,突出"以人为本"的教育理念,充分考虑大学
介绍夏大豆新品种宜豆268的特征特性、产量品质及高产栽培技术。主要包括播种定苗、合理施肥、田间管理、病虫防治、适时收获等。