论文部分内容阅读
在医工融合的大势所趋下,将人工智能技术应用于解决医疗领域相关问题成为了热门的研究方向。本文重点关注医疗文本的实际应用场景,希望通过自然语言处理技术解决行业痛点,帮助医疗领域实现信息化、数字化、智能化。
本文主要完成了以下工作:
①医疗文本命名实体识别。选择了分词与字典的模型、条件随机场模型、双向长短时记忆网络结合条件随机场的模型(Bi-LSTM-CRF)依次展开研究。对采用的开源电子病历数据集进行了预处理、频次统计分析和可视化展示。通过实验对比发现,基于字符的Word2vec的Bi-LSTM-CRF模型表现最优,查准率为80%、召回率为80%。该模型方法将用于后续构建医学知识图谱和医疗导诊分类的应用研究。
②构建医学知识图谱。选择了专业医药信息网站作为数据源,通过数据清洗、实体识别等方法处理后得到共计得到22040个医学知识实体、137732条实体关系。使用了Neo4j图数据库构建医学知识图谱,并通过查询语句对部分医学实体样例进行了可视化展示。
③医疗导诊分类研究。提出了知识交互的注意力网络(Knowledge Interactive Attention Network,KIAN)医疗导诊模型用于患者主诉短文本的分类。该模型引入了外部专业医学知识实体,并利用注意力机制判断知识实体对短文本的重要性和关联性。本文采用了基于自注意力机制的循环神经网络KIAN-LSTM模型和基于卷积神经网络的KIAN-CNN模型在共计24类的患者主诉短文本数据集中进行了实验和分析。另外,选择了其它5种主流的文本分类方法作为对比。结果发现,本文提出的知识交互的注意力网络(KIAN)医疗导诊模型综合表现最优,其分类精度都要高于其它方法约1~2个百分点。KIAN-LSTM以字符或词语为输入时,精度分别达到了80.65%和82.65%,宏F1分别达到了78.59%和79.66%。KIAN-CNN以字符或词语为输入时,精度分别达到了84.6%和85.1%,宏F1分别达到了82.45%和82.71%。
本文主要完成了以下工作:
①医疗文本命名实体识别。选择了分词与字典的模型、条件随机场模型、双向长短时记忆网络结合条件随机场的模型(Bi-LSTM-CRF)依次展开研究。对采用的开源电子病历数据集进行了预处理、频次统计分析和可视化展示。通过实验对比发现,基于字符的Word2vec的Bi-LSTM-CRF模型表现最优,查准率为80%、召回率为80%。该模型方法将用于后续构建医学知识图谱和医疗导诊分类的应用研究。
②构建医学知识图谱。选择了专业医药信息网站作为数据源,通过数据清洗、实体识别等方法处理后得到共计得到22040个医学知识实体、137732条实体关系。使用了Neo4j图数据库构建医学知识图谱,并通过查询语句对部分医学实体样例进行了可视化展示。
③医疗导诊分类研究。提出了知识交互的注意力网络(Knowledge Interactive Attention Network,KIAN)医疗导诊模型用于患者主诉短文本的分类。该模型引入了外部专业医学知识实体,并利用注意力机制判断知识实体对短文本的重要性和关联性。本文采用了基于自注意力机制的循环神经网络KIAN-LSTM模型和基于卷积神经网络的KIAN-CNN模型在共计24类的患者主诉短文本数据集中进行了实验和分析。另外,选择了其它5种主流的文本分类方法作为对比。结果发现,本文提出的知识交互的注意力网络(KIAN)医疗导诊模型综合表现最优,其分类精度都要高于其它方法约1~2个百分点。KIAN-LSTM以字符或词语为输入时,精度分别达到了80.65%和82.65%,宏F1分别达到了78.59%和79.66%。KIAN-CNN以字符或词语为输入时,精度分别达到了84.6%和85.1%,宏F1分别达到了82.45%和82.71%。