论文部分内容阅读
新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料上进行实验,添加医学领域词典后,F1值提升了1.46%。(3)针对电子病历的高质量标注文本缺失的问题,提出了一种结合BERT模型进行命名实体识别的方法。该方法使用BERT模型对文本进行向量化,使用BI-LSTMCRF框架作为微调的方式进行实体识别。同时在实验部分,分别对比了不同训练方式的语言模型、不同的微调方式以及是否进一步预训练对实体识别效果的影响。实验结果显示,在实验语料上使用BERT作为语言模型,并使用BI-LSTM-CRF的微调方式,得到的效果最好,其F1值达到了83.39%,而进一步预训练使得实体识别的F1值提升约0.54%。