基于聚类与深度学习的缺陷报告分派方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:money2468
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大型开源软件项目,诸如:Eclipse和Mozilla这样的开源软件,都配备相应的缺陷追踪系统,因为这样的软件项目系统规模庞大,需求量高,不断有新的功能扩充。缺陷追踪系统每天会产生大量缺陷报告。如果采用人工的方法将缺陷报告进行分派,将会耗费大量时间和人力。因此,研究缺陷报告的自动分派方法对于提高缺陷的修复效率具有重要的意义。相关研究人员利用缺陷追踪系统中缺陷报告的信息提出了不同自动分派技术和方法,但是这些方法并没有考虑到修复者本身的兴趣、活跃情况、能力水平等问题,而且没有提取缺陷报告文本的深层语义信息。针对上述问题,本文研究了基于文本分类的缺陷报告分派方法和基于相似度计算的缺陷报告分派方法。本文提出了一种基于聚类与循环神经网络的缺陷报告分派方法。首先,利用无监督聚类算法对相似缺陷报告进行聚类,按修复者的兴趣将相似的缺陷报告聚集到一起,从而挖掘出不同修复者所适合修复的不同类型的缺陷报告。在聚类特征向量提取上,本文首先对缺陷报告的分类信息提取One-hot向量,对于文本信息利用TF-IDF算法提取词语权重向量,利用主题模型和Word2Vec模型提取了主题向量和语义向量,然后将这4种特征向量进行融合,并采用k-means++算法进行聚类,从而生成多个缺陷报告簇。其次,将每个包含修复者信息的缺陷报告簇按照时间顺序排序后,得到一个历史修复者序列。通过对缺陷追踪系统的信息进行分析,统计并计算修复者特征集合,然后将其映射到所对应的修复者序列中。然后,本文采用了深度学习技术的循环神经网络来训练这种序列型数据,本文采用了一种cluster-based的训练方法,该方法更加适合聚类后的数据。最后,对于每个新的待修复的缺陷报告,首先通过聚类模型将其划分为所属的缺陷报告类别,然后根据该类别的历史修复信息利用已训练好的循环神经网络模型将其推荐给合适的修复者。最终在三种常用数据集上实验,结果表明:本文的方法相比于其他方法提高了修复者推荐的Top-k准确率。
其他文献
随着我国汽车工业快速发展,大中型客货车数量迅猛增加,机动车安全技术检验在保障车辆安全运行、预防和减少道路交通事故、保证人民生命财产安全发挥了重要作用[1]。其中道路
随着互联网行业的飞速发展,信息的产生和传播达到空前的速度,数据量呈爆炸式增长。互联网中充斥着大量的文本、音频、视频等各类数据,文本信息无疑是其中体量最大的数据资源,
网络虚拟化被认为是最可能有效解决网络僵化问题的技术方案之一。网络僵化指的是,传统的网络体系结构受制于固有的基于TCP/IP模式的数据传输方式,将无法始终满足日益增长的、
随着信息技术的不断发展,计算机需要处理的数据量和任务量日益增多,为了提高计算机程序的运行速度,越来越多的公司、科研机构开始通过结合中央处理器(CPU)和图形处理器(GPU)
插件机视觉定位系统是实现准确插件的关键,目前异型元件插件机的元件定位大多沿用通用贴片机的底部相机定位方法,由于异型元件针脚长而细,通过元件底部图像的本体区域进行定
随着创意产业的深入发展,推动社会逐步向创意社会迈进,在此基础上加大对于目前社会形态的研究,能够为创意社会发展提供一个可供参考的理论依据。文章共包括四个部分,第一部分
QR码作为移动互联网的入口之一,凭借其制作方便、存储容量大以及扫描稳定等特点,成为人们日常生活中最常使用的二维码。但是,由杂乱无章的黑白块构成的传统QR码,较差的视觉效
近年来,在医疗输液制剂生产行业,由于自动化灌装技术的应用,输液灌装制剂的年生产量极大。而对产品质量的检测环节还处于人工视觉检测的阶段,大大限制了生产效率。本课题通过
随着互联网的快速发展,在线观看和传输视频变得越来越便捷,视频正日益成为人们生活和工作中获取信息的重要渠道。但在利益驱使下,视频的盗版问题正变得日益严重。近年来,数字
土地是农民赖以生存的基础,没有了土地,农民的生活保障程度大大削弱,我国是农业大国,13亿人口中有8亿多是农民,农民的安居乐业保持国家安定、社会稳定的最重要条件之一。随着