药物临床试验文献的实体抽取研究及应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:s8583527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着临床医学领域的快速发展,越来越多的研究成果以临床试验文献的形式不断发表,大量的临床证据以非结构化的文本形式蕴含在文献中。临床证据是临床实践指南制定与更新的重要依据,因此从这些非结构化的临床试验文献文本中自动化地抽取出基础的证据信息如药物名称、疾病名称以及疗效指标,对临床实践指南的制定与更新起着至关重要的作用。然而,目前缺乏用于临床试验文献中药物名称、疾病名称以及疗效指标抽取的标准数据集,从而在此领域的实体抽取方法研究进展缓慢。另外,专门用于临床试验文献实体抽取的系统较少,临床研究人员往往缺乏计算机相关背景知识,对开展相关研究造成了障碍。因此,围绕着以上问题,本文主要开展了以下三个方面的工作:(1)本文构建了临床试验文献中药物名称、疾病名称以及疗效指标实体抽取的标准数据集。首先从Pub Med中收集了总共223622篇药物临床试验文献,其中包含系统评价、Meta分析以及随机对照试验三类文献。然后按照收集到的这三类文献类型的数量比例从中随机选取了8000篇文献的摘要文本,通过“人机协同”的方式对其进行命名实体标注与审核,最终得到了包含46578个药物名称、25559个疾病名称以及18970个疗效指标的标准数据集。(2)本文提出了基于BioBERT的多任务学习及键值记忆网络的实体抽取模型(MT-BioKMNER),并且分别在构建的数据集以及四个公开数据集(BC5CDR、BioNLP11ID、BC2GM、NCBI-Disease)上与CRF、BILSTM-CRF、BERT、BioBERT等四个模型进行了对比试验,此外还重点比较分析了多任务学习机制和键值记忆网络对模型的影响。通过实验分析表明,本文提出的MT-BioKMNER模型在构建的数据集以及公开数据集上,性能都优于其他四个模型。在构建的数据集上,三种实体的平均F1值达到了75.82%,比其他模型中最优的BioBERT模型高了2.54%,其中药物名称的F1值达到了81.72%,疾病名称的F1值达到了68.58%,疗效指标的F1值达到了77.17%。多任务学习以及键值记忆网络的影响分析实验也验证了本文引入这两个机制对模型性能提升的有效性。(3)本文基于MT-BioKMNER模型设计开发了临床试验文献实体抽取系统。系统操作界面简单友好,临床研究人员可方便查看并检索收集的临床试验文献信息,并实现文献摘要文本中药物名称、疾病名称以及疗效指标的自动化抽取。
其他文献
随着我国高速铁路的迅速发展,高速列车长期处于高速、重载与高密度的运行条件下,使得钢轨表面的磨损日益严重,可能会引发严重的安全事故,因此钢轨廓形的检测分析及其磨耗测量逐渐成为了铁路工务部门非常重要的检测任务之一。基于结构光的测量技术是如今视觉测量领域的研究重点和热点,已经广泛地应用于工业测量的各个领域,因此基于结构光的钢轨磨耗测量方法已经成为铁路基础设施安全检测中的热点课题之一。本文着眼于如何在动态
文本情感分析是自然语言处理领域的一个重要任务,它是一种以提炼文本情感内容为目的的文本分类。根据分析粒度的不同,文本情感分析可以分为对整篇文章的情感分析、对某段话的情感分析和对某段话中各个方面的情感分析,其中,对某段话中各个方面进行情感分析是一种细粒度的情感分析。目前,针对整篇文章或整个句子进行情感分析的研究技术已经比较成熟,并取得了较好的效果。但是,对文本进行整体情感分析会掩盖文本中不同方面的不同
随着互联网的普及和移动应用的快速发展,人们越来越习惯于在网络上获取信息。传统的医疗问诊需要人们去医院挂号进行诊断,随着网络技术的发展,越来越多的医院推出了在线问诊功能。人们渐渐习惯于去搜索引擎或者专门的问答网站,去搜索或提问相关症状,并从专业医生的回答中获得参考。但是专业医生资源有限,而绝大多数医疗问题集中在类如感冒发烧等常见疾病上,这些常见医疗问题已有的回答非常具有参考意义。如何通过分析已有的医
句法分析是自然语言处理中的一项基础核心技术,其目标是根据给定的语法理论,自动识别分析句子中各种成分之间的关系,最终得到句法树,在机器翻译等自然语言处理任务中有着广泛的应用。当前主流的神经网络句法分析模型依赖大规模标注数据,但是由于汉语不像英语有丰富的词性变化等表层信息来表示句法结构,导致汉语树库规模较小,人工标注成本高,短期内难以扩大。因此,如何利用现有的标注树库自动进行数据增强成为研究的焦点。在
现有的问答系统涵盖了模板方式、图查询方式、表示学习方式、深度学习方式,缺乏对复杂中文问句的语义理解。中文复杂问句有问句类型的多样性、问句实体的多态性、问句语义的模糊性三方面的复杂性,导致了问答系统在中文复杂问句方面表现不如人意。此外,中文复杂语句问答系统缺乏成熟的部署方案,人工标注、答案处理、系统的划分结构、需求变更导致的再次开发影响系统的成本、推理能力、鲁棒性、可迭代能力。为了解决上述问题,本文
近年来城市慢行交通逐渐受到了重视,人们对步行环境提出了更高的要求。但是,大城市机动化水平持续增长,为了满足机动车的需求,不断拓宽的机动车道侵占了慢行空间,两者的矛盾日益凸显。实践证明,共享街道是解决此问题的有效对策之一。与传统的街道规划理念不同,共享街道通过特殊的断面设计实现了道路使用者的融合,还原了街道交通与生活的双重功能。本文在国外规划经验的基础上,建立了适宜我国实施街道共享的判别指标,依次通
增强现实是智能时代极具前沿的计算机视觉应用技术,已逐渐应用到各个领域,其中通信网运维系统就是一个重要的研究方向。三维注册和虚实融合是实现增强现实的关键技术。三维注册是根据3D-2D点对实时估计相机位姿并获得虚拟物体相对于真实场景的位置;虚实融合是根据三维注册信息匹配出对应的虚拟物体,实现虚拟信息与真实场景的融合叠加。现有的增强现实技术在应用到通信网运维系统中时会面临图像识别延时较大、位姿估计误差大
虚拟化云计算技术的发展为解决高分辨率视频监控系统产生大量的存储和网络带宽问题提供了解决方案,然而云计算平台在为用户提供灵活便利的服务的同时其数据保护与安全共享问题尚未得到充分解决。目前现有的行业研究和解决方案如利用密码学的方法来解决访问控制的问题虽然能够保证某种程度的安全,但仍然存在以下方面的不足:一方面,基于属性的加密技术有效地将访问控制与数据加密结合在一起,能够用于确保物联网系统中数据的安全,
随着城市化进程的发展和居民生活水平的提高,城市内部机动车保有量的同比增长率远高于城市道路长度的同比增长率,道路供给与出行需求之间的矛盾逐渐加大。为了在有限的道路承载能力上提升出行效率,提高出行体验,对未来道路状况预测的研究必不可少。依托国家自然基金,徐维祥教授团队尝试实现未来道路状况透明化。在自然基金项目的指导下,徐维祥教授团队在路网交通状态、车联网技术等方面做了一系列研究工作,提出了出行计划。本
随着智能手机和互联网技术的发展和成熟,短视频行业影响力越来越大,刷短视频已成为人们日常生活中必不可少的娱乐活动,许多用户都将短视频当做一种新的社交方式。面对庞大的短视频用户群体,优化短视频软件的用户体验,增加用户粘性是一个增强短视频软件竞争力的重要方向。本文设计并实现了基于机型画像的音视频生产决策平台,旨在自动化生成机型画像数据并结合画像数据进行策略决策,进而优化各音视频生产功能的运行配置,使每一