论文部分内容阅读
我国现阶段持续上升的心血管病患病率与有待完善的医疗服务建设相矛盾,随着“互联网+”及人工智能时代的到来,智慧医疗成为新的发展方向。医学领域积累了海量数据,知识图谱可以从中提炼信息并加以应用,成为实现智慧医疗的基石。基于知识图谱的自动问答可以理解用户的搜索意图并返回更精准、有效的答案。本文针对电子病历的知识抽取与基于深度学习的语义解析技术进行深入研究,旨在构建一个心血管病知识图谱,并在其基础上开发自动问答系统,不仅为普通民众、患者等提供了一个高效精准获取心血管病知识的渠道,也响应了智慧医疗的政策。本文主要研究内容如下:(1)基于标注策略与深度学习的知识抽取。通过对现有联合标注机制进行改进,提出能标注病历中重叠关系的方案。在主流抽取模型BiLSTM-LSTM_Bias的基础上,引入对抗训练以改善鲁棒性;利用自注意力机制充分捕获语句特征;增加实体解码层提高对实体知识的敏感性;引入基于共享-私有域分离网络的对抗迁移学习以从其他命名实体识别语料集中学习任务共享的词边界特征并过滤特定信息,提高模型准确性。最终提出基于双对抗迁移学习的抽取模型:JOINT-Adversarial Transfer。实验证明该模型较BiLSTM-LSTM-Bias性能有非常明显的改善,F1值提高了 4.17%。(2)心血管病知识图谱的构建。为了丰富知识图谱,利用基于包装器的技术从39健康网、百度百科抽取知识,通过知识合并及实体对齐相关技术完成不同来源知识的融合,将其存储至Neo4j等数据库,成功构建了较为完整的心血管病知识图谱。(3)基于语义解析的自动问答系统。针对Word2vec无法区别同一字符在不同语境下含义的问题,本文采用BERT生成基于上下文语境的动态嵌入向量;为了减少标注工作,采用基于不确定性的主动学习策略来选择更有启发性的样本训练模型。最终提出基于主动学习与BERT的语义解析方案。实验证明BERT能有效提升模型性能,主动学习训练方式仅需约50%的标注语料集就能达到满意的性能。结合Vue.js框架,D3工具开发系统前后端服务,成功实现心血管病知识自动问答功能。