面向临床文本的医学经验知识抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuaiboer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在世界各地,医生作为一种稀缺资源承受着庞大就医人群带来的巨大压力。面对每一名患者接受的医疗资源十分受限的问题,医生希望借助医疗信息技术来高行医效率,同时高医疗质量;患者希望得到优质的医疗健康服务来充分掌握自身的健康状况。这些技术和服务的发展都十分依赖于医学知识的支持,因此,自动化的医学知识抽取方法的研究势在必行。通常情况下,医学文献、医学书籍、电子病历等是医学知识的主要知识源。电子病历区别于其他知识源,是一种直接面向患者的个性化医疗健康数据,其内包含大量的基于临床实践积累的经验知识。目前对这类知识的取方法的研究还比较初步。临床文本作为电子病历中医学知识最丰富的数据类型,同时也是一种直接体现医生行医经验的高可信度的知识源,研究面向临床文本的医学知识抽取技术是非常有必要的。临床文本作为一种特定领域的文本类型,具有其独特的子语言特性。临床文本中通用语言和子语言混合使用,且医学术语表述形式多样化,增加了医学实体边界的识别难度。此外,临床文本中常见的长句叙述造成了句内不同实体对所对应的上下文近似且部分实体对距离跨度大的问题,使医学实体关系分类变得复杂。本文基于临床文本的特点,研究了面向临床文本的医学经验知识抽取方法,主要研究内容包括以下五个方面:第一部分为面向临床文本的医学实体及其关系语料库构建。针对中文临床文本上语料匮乏导致相应研究无法开展的问题,本文基于中文临床文本的特点,制定了医学实体、医学实体修饰和医学实体关系的分类体系,并基于该体系构建了语料库标注规范。本文通过迭代式的语料标注方法来进行标注人员培训及标注规范更新,并采取多种标注质量保证措施来进行语料库构建。该语料库为面向临床文本的医学经验知识抽取研究奠定了重要的数据基础。第二部分为基于字级别条件随机场(Conditional Random Fields,CRFs)的医学实体识别。开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了许多错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。第三部分为基于字级别长短时记忆-条件随机场(Long Short-Term Memory with a CRF layer,LSTM-CRF)的医学实体识别。针对中文临床文本的相关NLP资源稀缺且医学实体标注语料库规模较小的问题,本文探索了深度学习方法在医学实体识别模型上的性能。本文根据中文临床文本特点,设计了多种长短时记忆-条件随机场模型用于识别医学实体,并探究了不同字表示和词表示的初始化对于模型的性能影响。第四部分为基于多池化卷积神经网络(Convolutional Neural Networks,CNNs)的医学实体关系分类。临床文本中充斥着大量的医学实体,直接导致同一个句子中可能包含多个医学实体,进而产生同一句子内多个上下文近似的关系样本。针对传统卷积神经网络中最大化池化操作无法保留特征相对于实体对的位置信息的问题,本文出了多池化卷积神经网络来进行医学实体关系分类。本文还针对跨关系大类的关系类型参数相互影响的问题,出了一种引入关系大类约束的模型训练方式,保证了关系大类间参数更新的独立性。第五部分为基于卷积门控循环单元(Gated Recurrent Units,GRUs)的医学实体关系分类。临床文本中存在着许多长句,这直接导致这些句子内实体关系的实体对距离较大。传统的卷积神经网络无法捕捉长距离特征间的依赖信息,而循环神经网络(Recurrent Neural Networks,RNNs)又不具备卷积神经网络对于局部特征抽取的精准度。本文针对该问题出了基于卷积门控循环单元的医学实体关系分类模型,整合了卷积神经网络和循环神经网络对于医学实体关系分类的优点,并在该模型上对比了基于注意力机制的得分加权计算与传统的最大化池化操作对于模型性能的影响。总的来说,本文针对临床文本的文本特点,深入地研究了面向该文本类型的医学实体识别和医学实体关系分类任务,并显著地升了这些任务上的模型性能。本文为医疗健康服务的发展供了医学经验知识抽取能力,我们期待这些研究成果可以进一步拓展到其他的数据类型上,从而进一步推进医学人工智能的发展。
其他文献
航空发动机的尾喷流噪声是飞机噪声的主要来源之一。随着环境保护法规对飞机噪声排放的要求越来越严格,相关的尾喷流降噪技术研究具有十分重要的意义。主流的方法主要是通过对发动机改型,加入额外的降噪结构以及调整整机的气动布局来达到降噪的目的。本文针对全尺寸内外涵混合排气涡扇发动机的尾喷流噪声,与以上几种降噪方法相结合,通过改变涡扇发动机内外涵排气状态,加入不同尺寸的锯齿形降噪结构以及改变发动机的安装位置,系
求一致最小方差无偏估计(UMVUE)及一致最优势检验(UMPT)是参数估计和假设检验中的两个重要的但有时又是困难的问题。现引入充分统计量,并通过它找到求UMVUE及UMPT的比较简单的方法。
目前,四川苗木花卉的种植面积已达到70万亩,2006年苗木销售额达32亿元:进入2007年后,四川乔木类米径8cm以上的绿化苗木销售继续看好,价格继续走高,米径4cm以上的苗木,价格稳中略有上
人体疲劳检测一方面可以降低由于疲劳驾驶引起的安全隐患,另一方面可以及时发现人体在疲劳时的亚健康状态。因此,人体疲劳的无接触、方便快捷的检测在安全驾驶和医疗健康等领
临床药学是一门综合性应用型药学分支学科,内容广泛,技术服务性强,它体现了学科渗透、交叉的趋势。随着临床药学的发展,临床药师参与药物治疗的深入,公众医疗保健意识的提高,
针对各进口流量不均衡的城市小型环交,以单位绿灯时间通过的车辆数最大为目标,结合排队长度与等待时间的限制,建立了小型环交单进口放行自适应控制模型。在不同的流量均衡度
讨论了线性采样数据系统的稳定性条件.通过细致分析该系统的解,发现提高近似离散化阶数q可以达到并改善系统的稳定性。对于任意采样周期T,可以找到一个最小的近似离散阶数q,在
在近几十年来,多智能体系统一致性控制问题作为分布式计算、编队控制以及无线传感网络等技术的基础,越来越受到国内外研究者的关注。在对多智能体系统研究的很长一段时间里,都假设多智能体系统中个体间仅仅存在“合作”的关系。然而这并不符合实际情况中多智能体系统网络普遍存在的“竞争”关系。针对多智能体系统存在“竞争”关系下安全一致性问题的研究目前处于萌芽状态,这也是本文研究的重点。本文主要研究了在恶意攻击下多智
社区居民是旅游地最核心的利益相关者。莆田湄洲妈祖庙作为妈祖信仰的祖庭,居民对发展妈祖文化旅游的态度对妈祖文化旅游的持续发展意义重大。文章通过对湄洲岛妈祖文化旅游