一种基于机器学习技术的日志记录语句级别推荐方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sarnimoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日志记录语句由于具有捕获和记录系统运行时信息的能力,成为了软件系统遇到故障时分析问题原因的主要信息来源。另一方面,互联网领域日新月异的变化,带来了越来越多的用户以及丰富的功能需求,这导致软件系统质量和性能要求都日益提高。日志记录语句由于前述原因,吸引了越来越多实践者和研究者的关注。事实上,恰当地在软件代码中插入日志记录语句已成为开发人员日常工作中十分重要的一部分。一个日志记录语句会利用普通文本和可选的相关变量来记录系统关键的事件信息。在编写日志记录语句时,开发人员需要决策在哪里记录以及需要记录哪些内容。但是,仅仅考虑这两个方面是不足够的,现有的日志框架和工具都要求为每个日志记录语句分配一个用来描述记录信息详细程度的级别,它会影响最终保存下来的日志信息。如果一个日志记录语句被分配了不合适的级别,可能会导致本该记录的信息没有被储存下来,使得后续的日志分析等工作缺失了关键性信息。现有的研究中表明因为需要权衡内容足够的大量日志所带来的益处和所消耗的成本,开发人员在为一条日志记录语句分配级别时往往会花费较大的精力,他们往往只能依赖自己的开发经验和领域知识进行决策。为工业界提供日志记录语句级别分配的有效指导原则,已成为学术界一个紧急而重要的任务,因此本文提出了一种利用机器学习技术为开发人员进行日志级别推荐的方法。已有的相关研究中发现在为一条新添加的日志记录语句决定级别时,日志记录语句所在的包含代码块和文件所提供的信息发挥了最为重要的作用。所以本文把从包含代码块和文件中提取出的文本特征经过处理之后得到的数字文本特征以及数字特征和布尔特征作为算法模型的输入,便可以得到新添加的日志记录语句的合适级别预测。学习模型的训练数据来自具有良好日志实践、数据质量可靠的、涵盖多种产品类型、长时间运行的、GitHub上排名前一百的Java项目。本文不仅选取了三种传统的机器学习算法:决策树,支持向量机、logistic回归模型,还利用深度学习领域的卷积神经网络来构建预测模型。通过对GitHub上排名前100的Java项目中的日志记录语句级别进行特征学习,四种分类器模型的性能评估结果(AUC和BrierScore)都表现出色,在近似研究的数据集上也表现了更为优秀的性能。随机抽样数据的实验结果也证明了本文所提出方法具有较强的稳定性和广泛适用性。
其他文献
依托呼和浩特市道路改扩建工程,通过在水泥稳定碎石基层材料中掺入5%水泥,再按水泥用量的0%、8%、10%、12%、14%、16%掺入SES-I型早强剂的试验中,将其在1d、2d、3d、7d养护龄
利用自行研制的三轴岩盐溶解试验机,实现在三轴应力条件下岩盐试样溶解试验。进行三轴应力条件下溶液浓度、温度、流量以及偏应力4个因素相互耦合状态的岩盐溶解速率正交试验
飞速发展的科技给人们的生活带来了很大的方便,对于学习自然也不例外,尤其是当下的信息技术对物理教学的影响,这里以物理中的实验教学为例进行相关说明。首先需要了解的是,实
目的建立重组人B淋巴细胞刺激因子受体-抗体融合蛋白(TACI-Fc)的质控方法和质量标准。方法采用以B淋巴细胞刺激因子作为配体的受体结合法测定TACI-Fc的生物学活性;反向液相色
在工业生产过程中,换热器普遍使用,但是在使用过程中在换热器表面所形成的污垢,对换热器性能的影响十分严重,影响换热器传热效率及使用寿命,增加工厂的清洗成本,影响工厂的经
目的探讨中西医联合物理疗法治疗慢性盆腔炎的疗效。方法选取我院确诊为慢性盆腔炎的136例患者,采用中西医结合并联合物理疗法治疗,对其进行临床疗效分析。结果 136例患者中,
在习近平总书记对党建方面提出的关于党要管党、从严治党提出要求,'坚持以零容忍态度惩治腐败',廉洁文化是当代社会主义文化的重要组成部分之一,是构建社会主义核心
诺丁斯关心教育理论为处理师生关系提供了新的视角,围绕"教育学生学会关心"这个主题,师生关系呈现出坚持以人为本、坚持贴近生活、坚持以情育人这三大特征。借鉴诺丁斯关心教
可控音频大地电磁法(CSAMT)对野外资料进行圆滑滤波以及静态校正后,以卡尼亚电阻率二维反演剖面为实际勘察资料,在电阻率二维反演剖面的基础上进行地质推断解释。将该方法应
<正> 日本的近代教育改革,自一八六八年的明治维新始。明治维新,是日本近代史上一个划时代的事件,是一次具有资产阶级革命意义并带有近代民族民主运动鲜明特点的资产阶级改革