论文部分内容阅读
目的:随着机器学习技术的发展,人类的各种需求(图像识别、音频转录、个性化产品生产等)日益增强,深度学习技术的一系列方法也慢慢走入人类的视野。深度学习可以克服机器学习无法处理原始形态的真实世界数据的缺陷,通过结合多层神经网络,深度学习能够从原始形态的数据中提取有用的信息。在可重复的检索策略的指导下,客观、全面的文献检索的过程是影响系统综述所提供证据质量高低的关键,但是文献筛检过程也是系统综述中最费时费力的工作。质性研究的研究方法均为对研究对象进行观察、访谈、录音或笔录等,即使是访谈录音,事后整理及分析资料时仍然要整理为文字的形态,会产生大量的文本文件,数据分析过程中,学者们的分析资料形式均为人工手动编码、归纳,会造成大量的人力资源消耗。综上所述,为了达到节省文献筛检以及质性研究资料分析方面的人力资源的目的,本研究旨在探讨文本分类技术在系统综述和Meta分析文献筛检以及质性研究数据分析方面的应用价值。材料与方法:本研究的数据来自两部分;其一,源自本人所在课题组前期发表的一篇系统综述和Meta分析的数据;其二,是源自“城市改变糖尿病(CCD)天津”课题的质性研究数据。研究选用Text CNN算法来进行文本分类,对于中文文本分类,在Text CNN算法的基础上叠加了“结巴”中文分词库。通过个人电脑(PC)单机进行算法的构建,i7-6700 3.4GHz是本研究所使用的电脑配置中央处理器(CPU),运行内存是16GB,Nvidia Geforce GTX 1050 Ti 6G显存版是处理运算过程中所使用的显卡(GPU),研究使用的操作系统是Ubuntu 18.04 LTS系统,它是基于UNIX架构的,使用Python3.6.8进行所有算法代码的编写及修改。结果:对于英文文本来说,根据训练样本中“纳入”和“排除”两类文献的样本量比例不同,本研究构建了三组Text CNN模型,结果发现第三组模型(训练样本为240vs63)对于少数类(“纳入”类别)的分类正确率是三组模型最高的(86.67%,52/60),而且这仅为文献的初筛过程,因此在实际应用中,其信息丢失的概率是最低的,但第三组模型的缺陷在于对于多数类(“排除”类别)的分类效果欠佳,这会导致后续文献筛检工作的工作量的增加(WSS95%最低),但相对于“信息丢失过多”的缺陷来说,增加筛检工作量显然更容易被人接受,且第三组模型已经将最初的筛检工作量减少了一半。因此,从实际应用角度,研究认为第三组模型最佳,即在训练样本中将少数类样本量扩大至原来的八倍,如果再继续扩大少数类样本量,会导致模型最终对于多数类样本的分类效果变得极差,即达不到节省工作量的目的。对于中文文本来说,尽管本研究的最优模型的F1值较低,但总体正确率能够达到61.88%,WSS95%能够达到0.5813,与Text CNN模型首次应用于中文文本分类时的研究相比较,总体分类正确率提高了7个百分点以上,且本研究按照3:7的比例拆分训练样本和测试样本,这样做的优势在于在实际应用中,质性研究数据分析时,研究者仅需完成30%的文本分类,便能将剩余70%的文本交由计算机处理,从而极大地减少数据分析者的工作量。结论:文本分类技术能够为系统综述和Meta分析的文献初次筛检及质性研究数据分析过程提供有力的技术支持,Text CNN模型对于英文文本的分类能力要优于对于中文文本的分类能力。