机器学习程序错误分析及其检测技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:NobelHsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来统计机器学习在越来越多的领域中被广泛应用,例如数据挖掘、图像识别以及自动驾驶等等。然而,对于机器学习程序的软件质量保障工作仍然处于起步阶段,很多工作都致力于提高数据集的质量或者测试训练好的模型即分类器。与他们不同的是,本文关注的是机器学习程序潜在的代码错误,其中包括学习器部分和分类器部分。测试机器学习程序是很困难的,因为这类程序没有测试预言。这个问题很少被机器学习的研究人员以及从业人员所考虑,并且他们并不打算区分机器学习算法和实现这些算法的代码。机器学习程序中的代码错误会导致一系列的后果,例如程序崩溃、丢失训练数据、性能降低、时间开销增加等等。为了能够给机器学习应用开发者以及使用者提供一个合理指导,本文针对机器学习程序中的代码错误,提出了一系列用于检测代码质量的解决方案。具体工作包括:·我们尝试理解机器学习程序错误。我们利用变异测试生成突变体来模拟程序员在编程中可能犯的错误。我们使用统计假设检验比较突变体与原始程序以及基准程序在性能上的差异。根据在不同数据集组合上的检验结果,我们对突变体进行了分类。有些突变体属于严重错误,例如编译不通过或者导致程序崩溃。有些突变体会严重降低程序性能,而有些会使程序运行超时。另外存在大量没有被执行的突变体,这说明代码覆盖率仍有意义。最后有两类突变体较为重要:一类是统计等价突变体,另一类是统计顽固突变体。·我们尝试区分这两类突变体。统计等价突变体应该被认为是正确的程序,而统计顽固突变体属于隐藏很深的错误,故应该被检测出来。首先我们使用蜕变测试进行区分,发现它能检测出部分统计顽固突变体,但仍有一定漏报率。然后我们使用机器学习算法的性质来进行区分,分别查看程序在学习曲线上的表现以及对于对抗样本的鲁棒性。我们发现有一部分突变体能够明显区分,但仍然存在一部分无法区分的突变体。这说明测试机器学习程序仍然困难,因为缺少有效的先知。·我们设计并实现了MINT系统,它将上面提到的众多测试方法集于一体。我们用实验证明MINT系统对于测试机器学习程序有一定的指导意义,可以为程序员提供一些有效的信息,为机器学习程序测试和使用带来了实质性的便利。
其他文献
以三维有限元模型模拟埋地天然气管道在内压波动和交通外载等交变载荷作用下的管道应变及应力变化情况,内压波动采用三角波进行模拟,交通载荷以移动形式作用于管道上方,并以矩形
母乳细菌被认为是婴儿肠道共生菌的重要来源,但是已有的研究只鉴定出有限的几种能够定植在婴儿肠道的母乳细菌,即Bifidobacterium,Staphylococcus,Lactobacillus和Escherichi
现代企业管理中竞争已经从简单的价格和质量竞争演变成了供应链管理的竞争,而供应商管理又是供应链管理的主要竞争力之一。IS公司作为一家跨国集团名下的子公司,地处于机械制
中国是一个人口大国,近四十年来,随着社会经济的发展,人民生活水平的提高,人口寿命逐渐延长,使得我国老龄人口呈快速增长趋势。老年人特殊的生理、心理和行为特征,产生了不同
稀土离子掺杂发光玻璃具有高透明度、易加工和可回收等优点,使其在激光、光通讯、储能和显示等光学领域具有广泛的应用前景。然而由于稀土离子吸收弱及发射截面小等问题导致发光效率不高,在一定程度上限制了其实际应用。近来,将金、银和铜等贵金属引入到玻璃中用于增强稀土离子的发光得到了十分广泛的关注和研究。金属银具有丰富的赋存状态,例如Ag+,Ag+-Ag+对,类分子状的(ML)Ag纳米团簇和银纳米颗粒等,且具有
ERP指的是企业资源规划软件,随着信息技术的不断发展,越来越多的企业在内部控制中采用ERP系统,对于企业的发展而言有着重要的意义。本文对ERP环境下企业内部控制存在的问题进
光学相干层析成像(Optical Coherence tomography, OCT)技术是一种无损伤、非侵入式的生物医学成像技术。谱域OCT技术(Spectral domain OCT, SD-OCT)作为第二代OCT技术,因为
<正> 二十世纪是以电为标志的时代,许多人都知道电的不少知识,却常常忽略了最基本的静电吸附现象。大家都知道,任何两种物体相互摩擦就会产生电,这就是静电。自然界的一切运
车辆动态称重技术具有快速、连续、准确测量的特点,可用于检查车辆超载、非法营运等违章行为,已在国内外被广泛应用。已有研究发现,通过车辆动态称重系统收集的信息,还可用来
郑州北站编组站是亚洲最大的铁路编组站之一,其连接着华北、华东、华南、西北和西南铁路,因而郑州北编组站的工作安全问题非常重要。本文针对郑州北编组站安全评价问题,通过查阅资料、现场实际调研、统计分析,得到影响郑州北编组站工作安全的众多因素,且将这些因素进行归纳统一为两大方面进行分析,即宏观因素和微观因素两方面。然后,秉持科学性、完备性、指代性强、独立性强和简练性等原则,构建安全评价指标体系,以人员因素