论文部分内容阅读
随着互联网技术的迅速发展,越来越多的在线医疗问诊网站得到患者的信任和依赖,患者通过在线问诊的方式将自身症状跟医生诉说,寻求专业的解答。利用信息抽取和知识图谱技术,可以将在线医疗咨询文本中的关键实体、实体的属性和实体间的关系进行提取和存储,为在线医疗智能问答系统提供基础,进一步改善患者的线上就医体验。其中,命名实体识别技术是信息抽取中的基础和关键技术。因此,研究如何提升在线医疗咨询文本的命名实体识别效果,具有非常重要的现实意义。当前对医疗领域中文命名实体识别方法的研究仍处于起步阶段,本文经过调研分析,发现存在如下可以改善的问题:(1)缺乏高质量的命名实体识别公开数据集。(2)识别效果存在一定的提升空间。(3)对BERT等语言模型的研究和应用还不够深入。(4)鲜有融合多种命名实体识别技术的方法。针对上述问题,本文主要进行了如下的工作:(1)针对没有公开的医疗领域命名实体识别数据集的现状,本文利用爬虫得到的在线问诊网站中的医疗咨询文本,构建了高质量的标注数据集。(2)分析BERT模型在医疗领域命名实体识别任务中的效果以及BERT基于特征和基于参数微调两种方式的效果,为下文的研究打下基础。(3)创新性地提出BERT_Lattice LSTM模型并将其应用于中文命名实体识别任务中。BERT_Lattice LSTM模型利用BERT语言模型作为特征提取模块,并利用Lattice LSTM模型作为命名实体识别主体模块,最后经过CRF层对输出结果进行调整。实验结果表明,该模型可以充分结合BERT语言模型对于字符级别潜在语义信息的获取优势,以及Lattice LSTM模型对于词语级别信息的获取优势,大大提升中文命名实体识别任务的效果。(4)针对医疗领域命名实体识别任务的专业性和领域性,本文借鉴了推荐系统中多路召回的思路,创新性地设计了多条命名实体召回通路,并利用Light GBM模型进行融合。该方法在本文构建的在线医疗咨询文本数据集上能达到较高的识别精度,相对于该数据集上表现最优的单模型BERT_Lattice LSTM,识别精度有了显著的提升。综上所述,本文提出的方法能进一步提升医疗领域中文命名实体识别任务的效果,最终为面向医疗领域的中文命名实体识别技术提供深刻的指导意义。