一种基于文本、分类信息融合的重复缺陷报告检测方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:wcj_lp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户和测试人员所提交的缺陷报告是发现软件缺陷的重要途经之一。缺陷报告是描述缺陷的载体,开发人员对缺陷报告描述问题的修复是完善软件的必要手段。不同用户和测试人员针对同一缺陷提交报告,导致缺陷报告库有大量重复的缺陷报告。随着软件规模和复杂度的日益增大,针对重复报告的手动分诊已无法适应越来越复杂的软件系统。重复缺陷报告检测研究旨在过滤缺陷报告库中的重复部分,有效提高软件维护活动的执行效率,是软件维护领域的研究热点。当前重复缺陷报告检测的准确率还有很大的提升空间,尚无法满足业界对重复缺陷报告预测的期望。提高预测精度的难点在于寻找一个合适且全面的方法衡量缺陷报告之间的相似性。借鉴数据融合方法,本文提出了一种基于文本信息、分类信息融合的重复缺陷报告检测方法CBLO(Combinationof BM25F、LSI and One-Hot)。本方法包括4个步骤:1.数据预处理,提取重复缺陷报告的文本信息与分类信息。2.使用BM25F与LSI算法对文本信息进行数值化处理,给出文本信息相似性测度。3.使用One-Hot算法对分类信息进行数值化处理,给出分类信息相似性测度。4.基于相似性融合方法,实现文本信息相似性与分类信息相似性测度融合,为每个缺陷报告生成一个重复缺陷报告推荐列表。为验证本文方法的有效性,在开源数据集OpenOffice上与基线方法DBTM进行对比。实验结果表明,在准确率上取得了4.7%的平均提升。
其他文献
目的 探讨临床实践与国家职业护士资格考试进行有机结合在临床带教中的应用效果.方法 依据国家护士资格考试所涉及的知识内容,结合临床实践,从多种方面对护生进行临床带教.结
4月11日,高桥湾水利枢纽工程水电站项目举行签约仪式。霍山县委常委、纪委书记江晨光,县委常委、副县长许海东出席签约仪式。据悉,高桥湾水利枢纽工程水电站建设工程由浙江省台
期刊
相对于汉语和英语等大语种语音识别,藏语语音识别研究始于2005年,起步较晚,且不同语种间存在差异,采用新技术以提升藏语语音识别系统性能,将成为藏语语音识别研究领域亟待解决的问题。针对藏语单音节识别系统,本研究主要进行了以下工作:1.特征提取。以梅尔频率倒谱系数作为输入的卷积神经网络可同时获取时序信息和空间位置信息。实验中提取了两类特征,即静态与动态的梅尔频率倒谱系数。2.稀疏编码。为了尽可能地消除
随着社会经济的不断发展,人们越来越重视知识产权,尤其是商标权。在此背景下,2015年欧盟发布了《欧洲议会和欧盟理事会关于协调成员国商标立法的指令》。本次翻译实践以这份
摘要 鸡白痢沙门氏菌可感染各日龄、不同品种的鸡,其临床症状表现不尽相同,雏鸡表现为急性败血性经过,成年鸡则以隐性感染为主,雏鸡最易感染,发病率和病死率都很高,严重影响鸡的生产性能。定期对鸡场进行鸡白痢检疫,可降低发病率,有利于养鸡发展。  关键词 鸡白痢;预防;治疗  中图分类号 S858.31 文献标识码B文章编号1007-5739(2008)10-0162-01    鸡白痢由鸡白痢沙门氏菌引
随着Intemet的发展,Web技术日新月异,人们已经不再满足于静态HTML技术,更多的是要求动态、交互的网络技术。ASP+Access成为许多中小型网上应用系统的首选方案,被许多中小型局域网
Computer Arts访问诺亚·哈里斯,Precursor Studio是如何为Channel 4的数字娱乐节目E4设计新式超现实广播视觉特效。
目的观察埃索美拉唑在降低低剂量阿司匹林治疗的老年人中相关溃疡发病率的作用。方法纳入需长期低剂量服用阿司匹林的患者242例,均经快速尿素酶法检测确认无现症幽门螺杆菌感
Microsoft的Imagine Cup学生竞赛,致力于挖掘并奖励学生创新,如今又一场比赛盛事将于7月在日本举行,奖金总额为$215.000。