【摘 要】
:
近年来,机器学习因其优越的计算能力,在安全领域展现出了巨大的发展前景。与此同时,机器学习的可解释性问题也成为了人们所重点关注的问题,可解释性能够揭示机器学习的决策原理,增强其可靠性,帮助模型优化,具有很大的意义。然而,目前大部分可解释性方法仍视机器学习模型为黑盒模型,并未深入其内部进行分析,具有较大的局限性。树模型因其非线性结构,较神经网络模型更加难以分析,鲜少有针对树模型的可解释性分析,因此,针
论文部分内容阅读
近年来,机器学习因其优越的计算能力,在安全领域展现出了巨大的发展前景。与此同时,机器学习的可解释性问题也成为了人们所重点关注的问题,可解释性能够揭示机器学习的决策原理,增强其可靠性,帮助模型优化,具有很大的意义。然而,目前大部分可解释性方法仍视机器学习模型为黑盒模型,并未深入其内部进行分析,具有较大的局限性。树模型因其非线性结构,较神经网络模型更加难以分析,鲜少有针对树模型的可解释性分析,因此,针对树模型的可解释性分析也是一个巨大的挑战。形式化方法因其严谨的逻辑特性,在机器学习性质验证方面得到了大范围的应用。鉴于此,本文基于形式化方法,提出了针对随机森林模型的局部可解释性问题的研究方法,主要针对样本特征重要性和反事实样本生成这两个方面。具体而言,文中的三个贡献如下:1.本文提出了基于可满足性模理论的随机森林决策过程编码方法,以此能够较为直观地了解随机森林的内部运行方式。2.本文提出了基于最小不满足核的溯因解释这一概念。利用可满足性模理论求解器对编码的随机森林决策公式进行分析求解,根据经计算后提供的最小不满足核,以反映在决策过程中对样本的预测结果有重要性影响的特征。实验结果表明了使用形式化方法深入分析模型可解释问题的可行性和精确性。3.本文提出了基于最小不满足核的最优反事实样本生成方法,为反事实分析提供了新的思路。实验结果证明了优越的性能和良好的结果。本文采用真实的贷款数据集进行了案例分析,为贷款失败的用户提供了合适且易于实现的建议,即根据反事实样本改善用户的申请条件,使得下一次贷款成功,以展示其在现实中的实用性。基于形式化方法的可解释性方法能够深入模型内部进行分析,以此为黑盒模型的解析引入了新的视角。同时,本文对于可满足性模理论中的最小不满足核赋予了新的价值,即能够根据最小不满足核,从两个不同的角度对机器学习的可解释性进行研究和讨论,给可解释性领域提供了一套新型实用的可解释性方法。
其他文献
近年来,深度神经网络在许多分类任务中已经达到了很高的准确率,这些任务包括语音识别,目标检测以及图片分类等。尽管深度神经网络对随机的噪声是具有鲁棒性,但是当对神经网络输入添加一些不能被人眼察觉的特殊扰动会使得深度神经网络模型输出错误的预测值。通常把这些添加了特殊扰动的样本称作对抗样本。为了使得深度神经网络的鲁棒性提升,对于深度神经网络防御对抗样本的方法进行了研究。在对抗防御的方法中包括三种:梯度遮蔽
随着信息技术的发展,图作为一种便捷且有效的建模方式,被广泛用于表示复杂的结构化数据。异常节点检测是图分析领域中的重要课题,在诸如社交网络的恶意账户检测,金融网络的欺诈检测等现实生活中有着广泛的应用。图异常节点检测场景的数据往往具有复杂的拓扑结构关系,传统领域的异常检测方法难以处理复杂的关系,此外,信息多元,标签不平衡等特点也造成现有的异常节点检测算法在性能上不尽如意,影响异常检测任务的表现。为了高
现代人们大部分时间都在室内环境中度过,例如家庭、办公室、购物中心、大学、图书馆和机场。然而,很多现有的基于位置的服务都只针对室外空间而设计,这主要是因为全球定位系统等定位技术无法准确识别室内场馆的位置。然而近年来室内定位技术的突破开始逐渐克服了这一难题,为研究机构、政府机构、技术巨头和有进取心的初创企业带来了巨大的未来机会——可以充分挖掘室内基于位置的服务的潜力。因此,室内数据管理在过去几年中获得
密度聚类被广泛用于模式识别、信息检索、图像分析、复杂网络分析等众多领域来识别真实世界数据集的隐藏结构。目前的密度峰算法往往只能处理结构化的完整数据,很多情况下表现不佳。其一,现实世界中的数据往往存在缺失或错误值,对于这样的不完整数据集,目前的处理方法是进行数据插补,然后采用传统聚类方法进行处理,这样导致精度下降,并且插补后的点的‘聚集现象’可能导致密度峰聚类失效。其二,对于更常见的半结构化数据,往
点云可用来描绘物体在三维空间中的形状,被广泛应用于自动驾驶、质量检测、结构可视化以及动画渲染等领域。随着深度学习技术的发展,人们逐渐将视角从二维视觉转向三维视觉,点云由于能够最大限度地保留物体的几何信息,因此成为研究该问题的首选。近些年来,在大规模三维点云上展开的深度学习工作已经取得了巨大的进展。然而,点云中专门面向小目标的语义分割仍然是该领域的挑战之一,许多问题亟待解决:(1)小目标所承载的语义
联邦学习作为当下人工智能技术的热点,可以解决“数据孤岛”问题。然而,现有的联邦学习方案面临一些问题,例如,如何保证上传的模型更新的隐私,如何避免不可靠的模型更新,以及如何鼓励参与者贡献他们的资源。为了解决这些问题,本文制定了相应的设计目标,提出了一种隐私保护的评估机制来选择可靠的模型更新。考虑到参与者不可能无条件的贡献自己的资源参加联邦学习,本文制定了相应的设计目标,设计了一种基于强化学习的公平激
监督过失不是过失的新类型,而只是在预见可能性程度上有所降低的特殊过失形态。监督过失可归责的正当性根据,在于劳动分工基础上维护社会有机团结的要求。监督过失理论研究对我国司法实践的意义,在于对监督者加重处罚并限制其处罚范围。监督过失处罚并不违反责任主义,也并非是风险社会下预防刑法的典例,对监督过失的研究仍未脱离传统刑法理论的范畴。我国司法实践呈现出三元监督主体归责倾向,实务中存在注重责任的划分而非归责
知识追踪(Knowledge Tracing)是用来评估学生对知识点掌握程度,从而预测学生对特定习题能否回答正确的人工智能与教育学领域相融合的一项技术。近年来,随着在线教育平台的不断增多,对于个性化学习的需求也越来越迫切。知识追踪可以追踪学习者的知识状态,并且学习路径推荐可以根据知识追踪的预测结果来对于学习者的学习过程进行个性化规划与推荐,以满足适应每个学习者的学习需求。尽管对于知识追踪和学习路径
深度学习的成功源于大量的标记数据,与之不同的是,人类仅仅通过少量的样本就具有很好的认知识别能力。两者之间的差异引发了人们对小样本学习极大的关注和研究。与传统的深度学习场景相比,小样本学习是根据新任务中少量的标签数据(支撑集)和以往获得的知识预测新任务中未标注的数据(查询集)。近年来,小样本学习方法借助元学习和情景训练策略,取得了长足的进步。其中情景训练策略是随机的从数据集中构造一个个元学习任务进行
大规模文本数据在丰富人们信息生活的同时也对如何更好地管理它们,挖掘其价值提出了挑战。聚类分析作为一种无监督学习方法,提供了一种不依赖标注信息,仅依靠数据本身的特征来识别数据分布模式的方案。文本聚类是自然语言处理的一个重要分支,已经有了一些成功的应用。例如,它可以把问答平台、社交媒体上用户发布的大量文本自动归入不同的主题,从而减轻平台的负担;可以将文献数据库中作者名存在歧义的论文自动划分为不同作者的