论文部分内容阅读
系统评价是循证医学中最高质量的证据来源,主要由专业的系统评价人员和医生来完成。系统评价形成过程中要求必须对纳入研究的临床试验报告(Randomized Controlled Trials,RCT)进行偏倚风险评估,然而该评估过程既复杂又繁重。近年来生物医学文献的发表速度正呈指数级形式增长,对系统评价人员来说,偏倚风险评估任务显得务更加困难。本文研究通过人工智能方法完成偏倚风险评估的自动化过程,从而提高系统评价的效率。本文提出了一种结合n元语法模型(n-gram)与TF-IDF(Term Frequency-Inverse Document Frequency)的特征工程方法,基于线性支持向量机(Support Vector Machine,SVM)分类器构建自动化偏倚风险评估模型。该方法通过引入词频统计的概念和n-gram思想,有效避免了词袋模型存在的高稀疏性和高纬度性,通过算法实现和对比实验,发现该模型在自动化偏倚风险评估任务的文档分类任务上取得了62.8%—80.0%的F1值,句子分类任务上取得了67.7%—74.7%的F1值。为了弥补传统特征表示方法在上下文语义学习上的不足,本文又提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动化偏倚风险评估模型。该模型采用性能优异Transformer结构作为特征抽取器,同时采用双向语言模型学习上下文信息。对比实验结果显示,该模型在文档分类任务上的F1值要比传统方法(结合TF-IDF特征工程与SVM分类器的方法)高14.7%左右,在句子提取任务上的F1值要比传统机器方法高18.2%左右。本文数据来源于从Cochrane图书馆的系统评价数据库(Cochrane Database of Systematic Reviews,CDSR)和Pubmed等数据库中获取到的3802篇RCT的原文及其对应偏倚风险评估数据。本文使用pdfminer3k工具包对RCT原文进行格式处理,并采用文本相似性计算技术从处理后的全文中获取对应的偏倚风险描述句,经处理后最终得到自动化偏倚风险评估模型训练和测试所需的数据集,该数据集是目前国内外相关研究中规模最大的一个。基于以上研究,本文设计实现了一个自动化偏倚风险评估系统。该系统基于Flask轻量级框架开发,采用Docker容器技术在本地服务器和阿里云服务器上分别部署。测试结果表明,该系统能够缩短系统评价过程中偏倚风险评估任务的时间,有效地提高了系统评价的整体效率。