基于机器学习的数据挖掘在软件缺陷预测中的应用研究

来源 :华北电力大学(北京) | 被引量 : 0次 | 上传用户：wuhao19881016

【摘要】

：

【作者】

：

Shaikh Salahuddin

【机构】

：

华北电力大学(北京)

【出处】

：

华北电力大学(北京)

【发表日期】

：

2021年01期

【关键词】

：

软件缺陷分类器缺陷预测数据预处理阶级失衡 SMOTE

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

软件度量数据库的复杂性使得缺陷数据集和无缺陷数据集模块难以区分,而从数据模型的发展过程来看,软件度量数据集对于度量数据的预处理至关重要,旨在提高机器预测模型数据集精度和性能。在计算领域,研究人员的关注主要集中在软件数据集模型中存在的缺陷数量,由于易变形数据集与准确性有着密不可分的关系,研究人员的主要目的是快速识别和纠正软件中存在的易变形缺陷。目前,世界上最大的科技公司也有自己的一致性注册方案,解决软件畸形相关问题,并监控畸形相关数据集模型的准确性。预测漏洞的准确性有助于提高软件的质量。漏洞指示器对于故障预测的突破有着至关重要的作用,可以提高设备的可靠性。漏洞预测的有效性提高了应用程序的一致性。漏洞指示器对故障预测技术的进步和设备可靠性的实现有着重要的贡献。在过去的二十年中,科学家们利用一些数学和机器学习方法来研究软件缺陷估计的问题。由于有缺陷和无缺陷的软件组件的数据不平衡,使得软件缺陷易感知识存在类不平衡的问题。一般来说,机器学习公式中假设每个类的知识检查量是相等的,并预计每个类的错误耗费是可比较的。随着当今可用的大量漏洞数据集的出现,使用各种机器学习来预测漏洞的估计值是可行的。通过使用分类技术,机器学习算法可用于检测程序数据集中的漏洞。分类是一种数据挖掘和深度学习技术,在缺陷倾斜的计算中很有优势。它主要将软件模块分类为四种不同程度的缺陷,这是由一系列从先前的生产风险结果中的到的软件复杂度度量所定。复杂性度量所决定的。如今,数据挖掘是应用程序开发人员用来解决软件测试和评审过程中存在的软件故障的主要来源,从而实现基于机器学习的漏洞预测。本文对软件缺陷预测进行了详细的研究,并通过三种算法实现软件缺陷预测。为了克服数据集模型中的类不平衡问题,采用了 smote算法,数据预处理和分类技术。由于类不平衡对缺陷预测的准确性有影响,这与快速解决这一问题有关。有各种各样的方法可以用来解决阶级失衡问题,包括过度抽样和抽样不足。我们通过使用SMOTE来确定这一点,SMOTE是一种在重新返回类不平衡方面相当过采样的算法。SMOTE被用来解决数据集中的过度拟合或过度泛化问题,导致少数群体数量的增加。多次试验/反馈是一种被提议的策略,用于避免SMOTE缺乏变通能力。为了对文件进行过度拟合,我们使用了 SMOTE和ONE-R及其MinBucketsize数n=1、2、3、4、5和6,结果表明MinBucketsize n=1和2在缺陷易发数据集模型中的基本精度和效率方面是非常好的。我们以三种不同的形式对数据集范式进行了实验,发现使用训练数据集比其他两种方法更好。此外,我们了解到,通过使用培训数据集模型,所有评估步骤的结果都非常成功。我们发现,数据预处理隐含地假设了多个软件缺陷度量数据集的类型,在总体分类输出特征方面,使用决策树的命题数据预处理变得最强大。这些实验的主要目的是验证使用各种分类方案进行数据预处理的实用性。我们还提出了一个数据预处理的框架,包括命题（RELAGGS）,主成分分析（PCA）和NASA MDP数据集模型的特征选择。在研究特征选择方法的过程中,发现与对软件缺陷模型数据集使用其他预处理方法相比,特征选择方法在许多分类中的性能降低。我们的分析模型方法是使用线性搜索分类方法来提高易变形软件的预测精度。实验结果表明,参数K=N=3、4、5适用于linearnsearch,可用于提高易受linearnsearch影响的软件的正精度。在K=N=5,6时用IBK滤波邻域扫描实验也能提高易变形软件的阳性准确率。我们使用LibSVM和LibLinear分类技术对机器缺陷倾向模型的有效性、精度和性能进行分类。在我们的研究中,我们了解到LibSVM以训练集的方式提高了分类精度和性能。与大多数其他策略相比,TP率和F-度量的乐观精度显著提高。另外,利用LibSVM对训练数据集的曲线下区域进行扩展。但是,所有分类中正确分类的实例数都有所提高。即便如此,在使用百分位数中断的情况下,LibLinear和SVM都能有效地在几个性能步骤中实现精度和性能的最大化性能步骤。

其他文献

玄武岩纤维低温等离子体表面改性研究

玄武岩纤维（Basalt Fibre,简称BF）不仅具有力学性能好,化学性能稳定等特点,还具有耐高温、耐酸耐碱、抗紫外线等优势,此外,绝缘性能也好,过滤效率高、抗辐射、透波性能优异,最关键的是生产过程中无污染。但是由于BF表面光滑,粘结性能较差,常利用改性处理提高其表面性能。本课题利用低温等离子体表面改性技术对BF进行改性处理,通过对处理前后的试样进行相关的性能测试,系统地研究了低温等离子体设备各

学位

BF低温等离子体正交分析粘结性能时效性

南方电网“双碳大脑”做政府企业的用能“参谋”

报纸

南方电网供电局

幽门螺杆菌阴性的消化性溃疡与出血关系的前瞻性、多中心临床研究

研究背景与目的有报道Hp阴性、与NSAIDs无关的消化性溃疡-特发性溃疡在西方国家有增多的趋势,目前关于Hp阴性的溃疡在出血病人中的比例高低仍存在争议,但缺乏亚洲的大宗临床研究数据。本项临床研究的首要目的是通过开展国内的多中心临床研究,观察Hp阴性溃疡出血在整体溃疡出血中的比例,同时以非出血性溃疡为对照,明确Hp感染与溃疡出血的相关性,判断急性出血是否降低RUT和组织学的敏感性,以及延迟的Hp检测

会议

啤酒猪肉松工艺的研究

为了丰富肉松制品的种类,本研究以猪瘦肉为原料,配以适当的辅料,在加工中添加一定的啤酒进行煮制,经过制松、搓松、烘烤等工艺制作成的干肉制品。通过试验改善了肉松的风味,增加其营养成分,扩大消费市场和消费空间。结果表明:肉与啤酒的比例1∶3、盐的添加量6%、煮制时间110min为啤酒肉松的最优工艺。

期刊

啤酒猪肉松工艺

基于产业融合视角的跨境电商与物流产业链融合发展研究

当今世界各国之间的经济往来愈发密切,尤其是处于全球经济一体化趋势下,世界各国电子商务及物流产业都在发展中获得了技术及动力支持,实现了转型升级。我国的跨境电商也在增速发展,形成了对国家经济全面发展的助推力,在电子商务运行中,必然需要物流产业的同步协调,跨境物流是跨境电商持续完善及发展的必要保障。基于此,应以产业融合视角为切入点,加快推动跨境电商及物流产业链的融合发展。

期刊

产业融合跨境电商物流产业链关联性分析融合发展

冶金自动化技术应用现状和发展趋势微探

在这个经济迅速增长的时代,我国的冶金自动化技术发展的越来越快,技术在不断突破,冶金需求也在不断地增长,对于一些冶金企业来说前景大好。但是,我国冶金自动化技术的发展仍然存在问题,制约了工业的发展。对此,冶金企业必须加强自动化技术的开发和应用,为企业发展打下坚实的基础。

期刊

冶金自动化技术应用现状发展趋势

基于肠道微生态浅谈针灸调节人体免疫防治新冠肺炎

新型冠状病毒肺炎（COVID-19）是一种急性呼吸道传染病,由严重急性呼吸综合征冠状病毒2（SARS-CoV-2）感染所引发。其传播迅速、致病性强,以发热、乏力、干咳为主要表现。临床上以中医理论为指导,发挥中医药整体调节的优势,联合现代医学先进诊疗手段,对新冠肺炎治疗起到了积极的作用。肠道微生态平衡是机体内环境稳定的重要保障因素,有研究表明,新冠肺炎的发生发展与肠道微生态紊乱及机体免疫功能下降息息

期刊

新型冠状病毒肺炎严重急性呼吸综合征冠状病毒2肠道微生态免疫中医理论针灸

PSD模糊控制器用于激光测量的探测光束控制与校正

为了满足测量与仪器领域的重大发展的需求,本文研究的主题受到了广大科学家和研究人员的高度重视。现代系统的设计必须紧随发展的步伐,并找到新的算法,具有低成本的设计,低成本的材料和高性能以适应不同的应用,这是一个重要和热点问题。本文着重于调整激光在通用系统以及作为特例的燃烧系统的光路。在这样的系统,我们需要纠正光路的角度偏差。本文的技术是基于高性能控制的设计模型与可接受的误差。这类系统是非线性系统,所以

学位

光电系统PSD模糊控制器激光束路径控制混合式步进电机建模PSD传感器FOC方法2自由度PID控制器

非线性迭代学习模型预测控制研究

批次过程在现代智能制造工业中占据重要地位,用于生产具有高附加值的精细化产品,其产品质量在很大程度上取决于控制系统跟踪参考轨迹的精度。批次过程在有限时间区间内重复运行,而迭代学习控制能够通过学习历史运行数据修正当前控制输入,达到沿批次不断提高跟踪精度的目的,因而成为当今批次过程控制的主流方法。迭代学习控制是典型的一维控制算法,控制律只沿迭代轴更新,在时域上采用开环控制结构。因此,迭代学习控制不具备实

学位

非线性迭代学习模型预测控制变参考轨迹高效优化迭代数据驱动建模变批次长度二维稳定性

线性自抗扰控制分析、设计及整定

自抗扰控制（Active disturbance rejection control,ADRC）因其对系统“总扰动”的自发估计和抑制能力使其逐渐受到越来越多研究者的关注,同时由于其在工业领域的成功应用展现了其广泛的应用前景,但其理论研究还有待进一步加强。本文从线性自抗扰控制（Linear ADRC,LADRC）设计、分析及参数整定这一课题出发,主要对二阶自抗扰控制参数整定、针对延迟系统改进自抗扰控

学位

线性自抗扰控制延迟系统改进自抗扰控制参数整定分析设计

基于机器学习的数据挖掘在软件缺陷预测中的应用研究

其他学术论文