面向医疗领域的中文命名实体识别方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,越来越多的在线医疗问诊网站得到患者的信任和依赖,患者通过在线问诊的方式将自身症状跟医生诉说,寻求专业的解答。利用信息抽取和知识图谱技术,可以将在线医疗咨询文本中的关键实体、实体的属性和实体间的关系进行提取和存储,为在线医疗智能问答系统提供基础,进一步改善患者的线上就医体验。其中,命名实体识别技术是信息抽取中的基础和关键技术。因此,研究如何提升在线医疗咨询文本的命名实体识别效果,具有非常重要的现实意义。当前对医疗领域中文命名实体识别方法的研究仍处于起步阶段,本文经过调研分析,发现存在如下可以改善的问题:(1)缺乏高质量的命名实体识别公开数据集。(2)识别效果存在一定的提升空间。(3)对BERT等语言模型的研究和应用还不够深入。(4)鲜有融合多种命名实体识别技术的方法。针对上述问题,本文主要进行了如下的工作:(1)针对没有公开的医疗领域命名实体识别数据集的现状,本文利用爬虫得到的在线问诊网站中的医疗咨询文本,构建了高质量的标注数据集。(2)分析BERT模型在医疗领域命名实体识别任务中的效果以及BERT基于特征和基于参数微调两种方式的效果,为下文的研究打下基础。(3)创新性地提出BERT_Lattice LSTM模型并将其应用于中文命名实体识别任务中。BERT_Lattice LSTM模型利用BERT语言模型作为特征提取模块,并利用Lattice LSTM模型作为命名实体识别主体模块,最后经过CRF层对输出结果进行调整。实验结果表明,该模型可以充分结合BERT语言模型对于字符级别潜在语义信息的获取优势,以及Lattice LSTM模型对于词语级别信息的获取优势,大大提升中文命名实体识别任务的效果。(4)针对医疗领域命名实体识别任务的专业性和领域性,本文借鉴了推荐系统中多路召回的思路,创新性地设计了多条命名实体召回通路,并利用Light GBM模型进行融合。该方法在本文构建的在线医疗咨询文本数据集上能达到较高的识别精度,相对于该数据集上表现最优的单模型BERT_Lattice LSTM,识别精度有了显著的提升。综上所述,本文提出的方法能进一步提升医疗领域中文命名实体识别任务的效果,最终为面向医疗领域的中文命名实体识别技术提供深刻的指导意义。
其他文献
网络教学是一种较为先进的教学方式,地方高校要借助名牌大学的网络资源搞好课程设置,对师资进行科学配置,搞好网络教学精品课的软件制作,并弥补网络教学的不足.
<正>1977年夏,刘心武在密云写《班主任》时,肯定没想到,此举将开启一个新的文学时期——"新时期文学"。尽管他日后著作等身,轰动效应不断,历史记取的,却是这篇昙花一现的"过
本文对冲压工艺中的精密冲裁工艺的特点进行分析,并说明了它在小型冲压企业中的应用前景.
针对电液位置伺服系统的特点及其性能要求,采用卡尔曼滤波器来克服控制系统中的测量噪声和控制噪声对控制性能的影响,并在MATLAB环境下对该系统进行了动态仿真,结果表明,基于
在Web应用程序中存取数据库,无论从界面上还是从速度上远比不上VB或C++对数据库的存取.本文探讨利用VB5.0开发Active X控件,完成对ODBC数据源的读写,实现了在Web页面上也能像
针对标准粒子群算法(PSO)把惯性权值作为全局参数,很难适应复杂的非线性优化过程的问题,提出了一种基于粒距和动态区间的权值调整策略。根据粒子的粒距大小在动态区间内选取不