论文部分内容阅读
随着信息和数字化技术的应用,医学领域形成了大量的数字化知识和数据,但截至目前,大部分的医学知识和数据仍以非结构化的文本为主要表达形式,如临床电子病历,中医古籍(如黄帝内经,伤寒杂病论,本草纲目等)和现代医学文献等。从这些大规模文本信息中提取结构化信息是进行深入医学分析和利用的前提,是目前医学数据挖掘的主要瓶颈之一。本文结合表型实体及其关系的抽取问题,分别对临床病历,中医古籍和PubMed题录文献进行人工规范化标注,构建信息抽取标准数据集,然后进行表型命名实体识别及不同实体间关系抽取方法的研究。主要研究工作包括以下三个方面:第一,首先构建10426个现病史症状表型实体识别标准数据集,并且分别应用条件随机场(CRF)和结构化支持向量机(SSVM)进行实体抽取,重点比较分析了传统特征、基于深度表示的字词特征学习方法(Word2Vec和Node2Vec)的性能差异。实验分析发现,基于传统特征的CRF方法的F1值为0.83,而基于Word2Vec词向量的CRF和SSVM方法F1值分别达到了 0.9798和0.9908;同时基于Node2Vec字向量的F1值分别达到0.8879和0.9413,词向量的F1值分别达到了 0.9752和0.9788。可见,基于深度表示学习的方法性能优于传统特征的命名实体识别算法,基本达到了实用程度(F1值>0.95),且SSVM在性能上优于CRF方法。同时,由于不需要进行分词处理,基于Node2Vec深度字特征表示的SSVM也达到了很好的性能。第二,以英文题录文献中的表型实体关系抽取为目标,构建了源自PubMed中包含4种关系的标准数据集(8991条样本记录),再分别基于词特征和句子特征,采用经典卷积神经网络(CNN)和多卷积核CNN(CNNs)进行关系抽取研究。实验发现,融合词特征和句子特征的CNN的F1值达到0.7494,而CNNs方法F1值为0.8039。相比纯基于词特征的CNN(F1值0.7031)分别提高了 4.63%和5.45%。第三,构建包含10种关系类型的古籍标准数据集(共81908条样本数据),再分别采用BiGRU算法结合Attention机制和BiLSTM算法进行关系抽取研究。实验结果发现,BiGRU+Attention算法的F1值达到0.9486,而BiLSTM算法在WF特征和WF+PF特征上的F1值分别为0.9017和0.9232。可见,BiGRU算法的性能要优于BiLSTM算法的性能。