基于可解释机器学习模型的即时软件缺陷数据预测与分析

来源 :云南大学 | 被引量 : 0次 | 上传用户:hanjzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷对软件的质量和经济影响重大,国外研究表明,每年由于软件缺陷造成的损失就达到上百亿元。因此如何准确、高效的发现软件缺陷,减少软件缺陷带来的损失,是软件工程领域一个热门的研究方向。研究人员开始对软件缺陷的可能性、数量、严重程度、分布规律等进行预测分析,发现软件缺陷与软件开发过程中的代码度量元有关。虽然关于软件缺陷的研究从未停止,但是在实际应用中仍然面临预测结果可解释性差,难以取得开发人员的信任,推广应用困难。即软件缺陷预测结果难以解释,开发人员不理解模型对缺陷预测的机制,无法判断缺陷预测结果是否合理,模型难以取得使用者的信任,在实践中应用受到阻碍。而根据模型的可解释性分为事前和事后可解释性。事前可解释性的方法通常结构简单,具备良好的可解释性,但是通常预测性能不好;而事后解释是指解释过程发生在训练之后,使用其他方法解释模型在预测过程中整体或者局部的决策。一般的即时软件缺陷预测只关注预测性能,对于预测结果的可解释性关注较少,缺乏对缺陷成因的理解。我们将即时软件缺陷预测和可解释性相结合,对预测结果从不同角度进行了详细的分析,包括事前事后的模型预测结果,以及可解释性差异。本文基于GMDH构建了事前可解释模型,以CNN和XGBoost构建事后可解释模型,在即时软件缺陷数据上进行预测和分析。我们使用accuracy和F1作为预测性能的评价指标,通过实验发现本文使用的事前事后可解释方法预测性能相差不多,但是事前解释模型的训练和解释两个过程是同时进行的,将输入数据和输出结果的因果关系解释为多项式函数,而事后解释方法需要将预测结果输入第三方解释算法SHAP和LIME进行解释,计算效率不如事前解释方法高。通过使用不同方法对即时软件缺陷数据的预测和分析,使得我们更加了解模型的特性和造成缺陷的原因,对修复缺陷保证软件质量有重要意义。
其他文献
自2012年以来,以深度神经网络为代表的深度学习事实上已经成为了人工智能领域的主流。计算机视觉领域的对抗样本也逐渐引起众多学者的关注和研究。对抗样本和自然样本的欧氏距离极小,以至于人类无法对其做出语义上的区分,然而却能以较高的置信度致使模型错误识别。对抗样本是计算机视觉领域一直难以解决的问题,它的存在对人工智能安全造成了严重的威胁。有多种手段可以在一定程度上防御对抗攻击。例如可以预先检测输入的图像
学位
自上世纪90年代以来,杭州求是小学率先在全国探索集团化办学,并树立成功的范例,集团化办学的热潮逐步兴起。作为我国基础教育办学的新形态,集团化办学在推进义务教育发展方面发挥着积极的作用,在深入创新发展的过程中,集团化办学逐渐扩大。目前,我国义务教育已经实现基本均衡,处于向优质均衡转变的阶段。在这一现实背景下,昆明市也结合区域实际,紧随其后推进集团化办学,但在实施过程中仍面临诸多困难,因此,研究昆明市
学位
易地扶贫搬迁是近年来我国实施精准扶贫工作的重点项目之一,是适用于“一方水土养不起一方人”区域的专项扶贫项目,此类工作的主要目标,即依靠“挪穷窝”、“换穷业”等措施的有效推进,进而达成“拔穷根”之效果,有助于搬迁群众能尽快脱离贫困的境况。关于搬迁,一方面是贫困群体在地理位置上的转移,另一方面也是他们生活模式的重建、城乡格局的重构以及社会关系的重塑,此类特殊的宏观环境中所出现的移民子女群体具有一定的特
学位
<正>近年来,大型语言模型技术不断飞跃,海内外互联网企业在人工智能领域的技术开发及迅速扩张为大语言模型的技术进步与应用落地开拓蓬勃发展的空间。1.大型语言模型的定义及特征大型语言模型(Large Language Model,LLM),即利用大规模语料数据进行预训练的预训练语言模型(Pre-trained Language Models,PLMs),是自然语言处理(Natrual Language
期刊
随着群体智能的广泛应用,多智能体强化学习已成为目前的一个重要研究课题。在多智能体强化学习中,智能体通过强化学习的反馈机制来学习最佳策略。大规模智能体之间的动态交互以及非确定性的环境,导致了多智能体强化学习的复杂性。在学习过程中,很难预测智能体的最佳行为决策。对多智能体系统建立动力学模型,可以定性地洞察系统的演化,帮助理解智能体的行为决策。由于智能体数量带来的计算空间维度爆炸以及动态交互的复杂性,目
学位
为实现国家的战略目标,成都市深入贯彻习近平总书记对四川及成都工作系列重要指示精神,落实关于国资国企改革发展和党的建设的重要论述,不断深化改革重塑国有企业发展动力,在抢抓作为推动国家形成新发展格局的重要支撑的成渝地区双城经济圈,建立健全市场化经营机制,增强企业活力和竞争力上,已经探索出了适合自身的具有地方特色的市场化改革之路。X集团2006年成立至今,虽然在经营管理上取得了小有的成就,但存在的问题依
学位
博弈主体在不同维度上具有异质性的非对称博弈更契合现实世界的状态。因此,探索非对称博弈主体的群体合作行为演化的微观机理有着非凡的现实意义和研究价值,可以帮助理解和解决社会困境。演化博弈论作为有限理性个体通过重复博弈自适应学习以达到演化稳定策略的理论方法,为研究群体合作行为决策规律给予了强有力的支撑。本文利用演化博弈理论,结合复杂网络模型和经典的公共物品博弈模型,分别构建了个体非对称属性和道德的两种不
学位
智能家居自动化系统是指通过物联网远程监测和管理各种装置,通过布置家庭网络以及使用者的个性化要求,完成对所有家居设备的管理以及信息的反馈。物联网环境下,设备的增加使得用户经常关注这些系统执行复杂或组合任务的能力。现有的中文智能家居自动化系统只能执行一些无法满足用户需求的简单任务。由于需要学习大量的编程知识,用户很难使用可视化编程系统开发他们需要的家庭自动化系统。同时,无需用户操作的自动编程只能编写几
学位
近年来,区块链作为处理信任问题的重要技术,在金融、食品安全和交通等多个领域表现出重要的前景。共识机制作为区块链技术底层的核心部分,当前公有链使用的共识机制以工作量证明(PoW)和股权证明(PoS)为主。然而这些共识机制仍存在挑战,例如:PoW在效率与去中心化之间,以牺牲效率来获得更高的去中心化来满足公有链的根本需求,并且存在高时延低吞吐问题。PoS由于权益掌握在少数人中,所以导致了明显的中心化趋势
学位
确定药物副作用的发生频率是药物研发和药物风险-效益评估的关键问题。准确、高效地预测药物的副作用频率,对降低药物安全问题发生概率、保护患者健康有重要意义。药物的副作用频率通常在随机对照临床试验中确定,但此方法性能有限且成本昂贵。随着药物临床试验数据的增加,使得基于数据驱动的计算方法研究药物副作用成为可能。现有的药物-副作用相关预测工作主要研究药物-副作用间的关联关系。与此不同,本文旨在探究药物-副作
学位