论文部分内容阅读
移动应用缺陷报告是一种用于展示移动应用缺陷和问题的报告形式,它通常由图片、文本、运行脚本等多种形式的内容组成。随着移动应用市场的快速发展,移动应用中的缺陷也越来越多的影响着用户的使用,为了获得更高质量的移动应用,需要对移动应用进行充分的、全面的测试。通过对移动应用缺陷报告的研究与分析,可以更好地完善、提升移动应用的质量与性能,本文着重研究利用文本聚类的技术来对移动应用缺陷报告进行分析。首先,本文对自然语言处理领域中文本挖掘技术进行了介绍,阐述了文本分类、文本聚类等的基本概念,介绍了常用的算法以及它们的优点和局限性。同时还对在文本挖掘过程中使用到的文本预处理技术进行了简述。然后本文建立了一个使用半监督的文本聚类方法的移动应用缺陷报告聚类系统,该系统首先利用传统KMeans方法对移动应用缺陷报告进行聚类,并利用数据可视化手段对分析结果进行展示。同时,通过该系统收集到一部分的缺陷报告的标识数据,并以这些数据构造出约束集合,通过Cop-KMeans的方法来调整聚类结果,提升准确度。本文对聚类系统的架构及技术进行了阐述。最后的实验部分,通过调整实验数据集以及实验参数,反复进行多次实验对比,验证了在移动应用缺陷报告中使用文本聚类技术的可行性,并对传统的无监督聚类方法KMeans与半监督聚类方法Cop-KMeans进行对比实验,结果证明Cop-KMeans方法具有更高的准确度。