基于人机协同的医学文献信息抽取关键技术及系统研发

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:a236540335
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益普及和医学文献数量的快速增长,医学文献数据量呈现爆炸式增长,但大量医学文献数据大多以结构化方式存储,有着不易提取,人工标注成本高昂等特点。在医学文献中,文献摘要记录着重要信息,如何根据大量的医学文献摘要抽取重要的循证医学数据,并分析从而开发合成新的药物来治疗疾病变得愈发重要。医学文献命名实体识别,作为自然语言处理的基础和重要的任务,可以从非结构化的医学文献中抽取规范的实体,可以用于构建医学知识图谱任务。研发基于人机协同的医学文献标注系统可以用少量的人工标注从而实现短时间对大量医学数据进行信息提取,提高效率,并且可以为下游的数据挖掘等提供支持。首先提出医学文献命名实体识别的模型BERT-BiLSTM-CRF的实体识别算法模型,最后研发对于循证医学进行高效标注的“人机协同医学文献标注系统”。具体工作有如下二部分组成:(1)基于BERT-BiLSTM-CRF的命名实体识别模型BERT预训练算法模型是近些年出现的优秀的深度学习算法模型。本文首先采取BERT训练字向量,使用双向Transformer对输入语言序列进行编码,得到句子在任何两个相对位置上的字之间的表征。BERT模型在实体识别任务NCBI-疾病标准数据集中F1达到75.91%,添加双向LSTM和CRF层,对BERT处理之后的向量进行进一步特征提取之后,F1值提升了0.58%。本文运用2种传统机器学习算法模型和5种深度学习算法模型,做了生物医学领域的Pub Med循证医学文献实体识别方面的工作,对实验结果进行了比较和分析对比。对于每种算法模型进行3次求平均的方式,得到最后结果。通过对比实验结果发现性能最好的是BERT-BiLSTM-CRF。在NCBI-疾病标准数据集F1为76.49%在Pub Med疾病和症状语料库的F1值为74.18%。(2)人机协同医学文献标注系统研发针对循证医学文献进行快速结构化提取的“人机协同医学文献标注系统”。该系统用人工标注和智能标注相结合的方法,并对常见的命名实体识别算法模型进行管理,标注人员人工标注之后可以设置需要训练的算法和数据集以及学习率等参数,训练算法并测试算法模型的性能;对医学文献进行管理,可以根据条件在线搜索医学文献并对结果结构化存储和对搜索主题词进行管理,提高科研人员的使用体验;对数据集进行管理,实现对特定任务标注之后制作标准数据集用于算法模型的训练和测试。人机协同医学文献标注系统可以在人工很少的情况下,快速的对大量循证医学数据进行信息提取,减少人工标注的成本以及所需的人力物力和时间提高了效率。本文主要提出了人机协同医学文献标注系统流程设计和功能设计以及本人参与的部分开发工作。
其他文献
点击率(Click Through Rate,CTR)预估是商业推荐系统中的一个重要任务,其关键是特征交互。精准的预估用户对广告的点击率能够为广告平台创造巨大的效益,为广告主带来即时点击并提升影响力,为用户提高服务质量。然而,由于特征交互极为复杂灵活,且真实场景的点击数据中的广告存在冷启动问题,建模有效的交叉特征极具挑战。本文针对点击率预估问题进行分析与研究,结合数据中的特征信息和域信息进行建模,
大数据时代,数字图像在各领域得到越来越广泛应用。例如,在安防、医疗等特殊领域高质量图像对专业人员的判断起着至关重要的作用,在社交媒体、电子商务等领域高质量图像能够给用户提供更好的应用体验。但在现实世界的实际应用中,由于硬件设备受到成本、自然环境等因素的影响,导致采集到一些分辨率低、质量差、纹理细节模糊的图像,提高这部分图像质量是一个亟需解决的问题。所以,采用图像超分辨率技术对图像进行高质量重建,以
三维块匹配联合滤波(Block-matching and 3D filtering,BM3D)作为目前最好的图像去噪算法之一,能够有效地去除图像中的噪声,但是仍然存在着丢失图像细节信息、对高噪声图像(σ≥40)去噪效果差、算法时间复杂度高等问题。图像去噪的目的是在去除噪声的同时,尽可能地保持图像有用信息。由于图像的边缘、纹理等细节信息和噪声,都主要集中在图像信号的高频部分,因此图像去噪的主要目标就
我国高速列车的发展处于世界领先地位,作为动车组旋转机械关键部件的主要组成部分,齿轮箱运行时的健康状况至关重要,一旦发生故障,将产生不可估量的费用损失,尽早进行故障诊断与分析,降低维修成本并且减少事故的发生,具有一定的工程意义。随着人工智能,深度学习的发展,基于数据驱动的方法成为故障诊断的主流技术,传统的方法是对振动信号进行降噪处理,时频分析及特征提取,最后人工对故障进行特征匹配,判断旋转机械是否出
车标识别为智能交通系统提供技术支撑,在智能交通业务应用中高效、准确识别车辆起着重要的作用。实际生产环境下的车标图像存在光照不均、车标倾斜,污损及复杂背景等影响因素,车标识别一直具有很大的挑战。传统的车标识别算法,主要以手工设计特征为主,缺点是:算法抗干扰能力有限,鲁棒性不高,不能准确有效的进行车标定位和分类。与手工设计特征相比,基于神经网络的车别识别算法在解决复杂环境的车标定位和车标识别问题具有极
口语理解作为任务型对话系统的第一个流程,在对话系统领域中具有重要的研究意义。目前,对于口语理解任务的研究多基于深度学习方法,在每个对话领域都需要大量的标注对话数据来支撑模型的训练,因此带来相当大的数据成本。而针对数据问题被提出的小样本学习目前还处于初级阶段,主要应用在图像分类任务中。本文将小样本学习方法应用于口语理解任务,对于口语理解的两个子任务——意图识别和语义槽填充分别提出了适用于小样本数据的
随着互联网的快速发展以及人们对教育需求的不断增长,2012年出现了大规模在线开放课程这种新型的在线学习模式。伴随着大规模在线课程平台的快速发展,任何人均可上传课程到平台上来,课程数量不断增加且教学内容存在大量冗余,出现类似电商平台的信息过载问题;同时,由于在线开放课程平台缺少清晰的学习架构引导用户制定学习策略,用户难以从海量数据中选择适合自己的课程。因此,本文旨在利用推荐系统,分析用户的历史行为,
面向电子病历的临床术语标准化是将电子病历中的临床诊断实体对应到标准知识库中的标准实体。临床诊断实体的标准化描述主要采用国际疾病分类编码规范(International Classification of Diseases 10,ICD-10)。临床术语标准化是医学自然语言处理中的重要研究课题,是对临床医疗文本进行后续挖掘和分析的基础。目前英文临床术语的标准化研究较为深入,但是中文领域的相关研究相对
在当今科技迅猛发展的时代,智能制造技术所具有的先进性和复杂性更加体现在了现代工业生产过程中,市场竞争也更加激烈,这种复杂的市场环境给制造企业带来了巨大的挑战。科学合理的生产计划和排产调度,对于降低产品成本、提升企业经济效益会产生巨大的作用。因此,对于智能工业制造企业而言,优化车间调度方法是目前的一个研究热点。在智能工业产品零部件制造过程中,企业不仅要考虑到工件的冲压加工工序,为提高产品的强度和韧性
随着汽车保有量的不断增长,智能交通已经深入我们的日常生活,车牌检测作为智能交通中重要的组成部分同样得到了飞速的发展,为城市公共交通的规划与出行带来了极大的便利。由于汽车所处环境极其复杂,为车牌检测识别带来了很大的困难,通过分析大量车牌数据得出光照是影响车牌检测识别的主要因素。通过对车牌识别场景中的实际问题和车牌图像的数据特点的分析,本论文以卷积神经网络为基础框架,重点研究车牌识别过程中的低光照增强