【摘 要】
:
可重复构建是指在预定义的构建环境下重新创建二进制工件的能力。由于可重复构建具有保证软件构建环境安全和提高软件构建和分发效率的作用,许多开源软件存储库(如Debian,Guix)开展了软件可重复构建实践。然而,由于判断信息的不足和源文件的复杂多样导致确定软件不可重复构建的原因仍是一项费时费力的挑战。为了克服这个挑战,本文研究了基于机器学习的软件不可重复构建原因分类检测。本文研究了四种典型的不可重复构
论文部分内容阅读
可重复构建是指在预定义的构建环境下重新创建二进制工件的能力。由于可重复构建具有保证软件构建环境安全和提高软件构建和分发效率的作用,许多开源软件存储库(如Debian,Guix)开展了软件可重复构建实践。然而,由于判断信息的不足和源文件的复杂多样导致确定软件不可重复构建的原因仍是一项费时费力的挑战。为了克服这个挑战,本文研究了基于机器学习的软件不可重复构建原因分类检测。本文研究了四种典型的不可重复构建原因,即时间戳、文件顺序、随机性和语言环境,并用机器学习研究不可重复构建原因自动分类的工作。对不可重复构建原因的分类检测有利于开发者维护软件,保证软件供应链安全,提高开发人员的工作效率。本文提出了基于逻辑回归的不可重复构建原因分类算法,通过日志提取,日志预处理,特征向量构建,模型训练及分类预测来检测软件包不可重复构建的原因。首先,提取不可重复构建软件包的差异日志和构建日志,并分别根据日志各自的特性进行预处理。其次,将预处理后的日志按照文本相似性进行拼接,生成不可重复构建软件包的文本日志。然后利用word2vec产生的词向量并对文本日志进行向量表示,最后配合逻辑回归模型,对差异日志和构建日志合并的文本语料特征向量进行学习和训练,从而实现对不可重复构建原因的自动分类。本文对算法进行了实现,并在671个不可重复构建的Debian软件包上进行实验。实验结果表明,该方法达到了80.75%宏平均精度和86.07%的宏平均召回率,优于其它常用的机器学习算法。此外,本文还分析了差异日志和构建日志的相关性和重要性。实验结果表明两者对不可重复构建原因的分类都非常重要,缺一不可。本方法为不可重复构建原因自动分类提供可靠的研究依据。
其他文献
毛细管电泳(capillary electrophoresis,CE)是一类以毛细管为分离通道、以高压直流电场为驱动力的液相分离技术,它的主要优势有简单易操作、成本低、样品消耗量小等,是现如今食品和环境中进行物质分析的重要技术之一。但由于进样量少且检测的光程短,通常需要利用富集方法来提高检测的灵敏度以满足分析的要求。本文主要研究了CE技术在食品和水中药物残留检测中的应用,根据分析物特性选择了不同的
类硅烯和类锗烯作为类卡宾化合物的类似物,拥有与类卡宾相似的化学反应特性,是重要的有机中间体。制备环丙烷类化合物的其中一种有效可行的途径就是利用类硅烯、类锗烯和含不饱和化学键的物质发生加成反应。由于它们性质活泼,目前在温和的反应条件下,合成和分离仍有难度,对其反应的研究仍显欠缺,且反应机理缺少理论支持。本研究借助量子化学计算方法,对若干类硅烯、类锗烯与醛、酮、二烯等含双键物质的加成反应机理进行了理论
以图像作为输入,使用计算机自动生成有意义的文本描述,称为图像描述生成(Image Captioning)。因其位于计算机视觉和自然语言处理两大研究领域的交汇处,以及广泛的应用前景,吸引着越来越多的科研工作者致力于此。图像描述生成任务成为近年来的研究热点之一。场景图对图像中对象之间语义关系进行注释。通过生成图像的场景图,为图像描述生成模型引入对象之间关系的引导来增强区域级特征,有利于推理出正确的文本
重载卡车具有载货量大、运输成本低、动力强劲等优点,已经成为经济社会中不可或缺的一环。但是也正是由于重载卡车通常具有较大的载重,一旦在高速行驶时发生爆胎其行驶稳定性会受到严重影响,很难依靠驾驶员的应急反应成功脱险,从而造成严重的交通事故。研究爆胎车辆的稳定性控制具有很强的实际意义,本文提出一种爆胎车辆的主动控制系统,并对爆胎车辆的脱困方法进行了一系列研究。首先,鉴于爆胎实车实验的高危险性,建立Tru
停车位检测是自动泊车系统中的重要组成部分,其检测性能决定最终泊车效果。目前,空停车位检测主要使用基于视觉的方法,通过车辆装备的鱼眼相机拍摄图像,根据相关算法得到环视图像,实现基于环视图像的空停车位检测。但现有方法存在车位线及角点不清晰或出现遮挡时空停车位检测精度较低或无法检测的问题。并且有些方法步骤繁琐,需要进行车位标记推断匹配及对车位占用情况分类,检测速度不够快。针对上述问题,本文提出一种基于环
丝背细鳞鲀(Stephanolepis cirrhifer)隶属鲀形目(Tetraodontiformes)、单棘鲀科(Monacanthidae)、细鳞鲀属(Stephanolepis),是极具增养殖开发潜力的鱼种,研究其早期阶段发育及生长、摄食特性,既可填补该鱼种早期发育生物学理论空白,又可为人工繁育提供技术支撑。本文在人工培育条件下,采用显微观察以及实验生态学的方法,研究了丝背细鳞鲀的胚胎发
近年来,基于激光雷达的自动驾驶3D感知技术处于蓬勃发展阶段。随着深度学习、神经网络的快速发展,激光点云检测技术也进入了飞速发展阶段。在现有的激光点云目标检测算法中,车辆和骑行者检测准确率较高,行人检测准确率较低,且面向行人的研究算法较少。根据KITTI数据集公布的前沿算法,车辆激光点云检测的精度达到90%,而行人检测的精度只有45%左右。因此本文主要目的是研究预测效率更高的激光点云行人目标检测新方
海洋底栖纤毛虫是海洋微食物网的重要组成部分,栖息于沉积物表层或底内。由于沉积物中的纤毛虫难以辨认分离,底栖纤毛虫的物种多样性研究明显滞后于浮游类群。渤海海域的底栖纤毛虫物种多样性研究存在空白。本论文对渤海莱州湾三山岛近岸海域底栖纤毛虫的物种多样性进行了针对性研究。从2020年8月至2021年12月,共发现底栖纤毛虫40余种,累计分离并鉴定底栖纤毛虫22种,隶属于20属(伪角毛虫属Pseudoker
近年来深度学习的广泛应用对自然场景下文本检测任务的发展提供了新的动力。为了进一步提升文本检测方法的性能,本文提出基于位置感知的特征选择文本检测网络和基于性能导向的多阶段特征文本检测网络,从特征利用的角度来提升文本检测的性能。在常用的自然场景数据集中,文中的方法可以实现目前最优的检测效果。文本检测方法中基于直接回归的文本检测方法因其简洁的网络结构和稳定的检测效果受到了广大科研工作者的关注。这类方法在
海草作为沿海生态系统的基础物种,提供了重要的生态系统服务。但近年来海草正面临着严重的衰退危机,成为地球上最受威胁的生态系统之一。现阶段,海草的衰退主要归因于全球气候变化以及与人类活动直接相关的栖息地破碎化、富营养化、污染和生物入侵等,而对海草内在生物脆弱性的关注较少。我们前期研究发现,北方代表性海草-鳗草的放氧复合体(OEC)易光失活,明显区别于陆地植物和海藻。因此,为了深入了解海草OEC光失活规