中文电子病历的新词发现及实体识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:fuiegfiusbkufbakuefg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料上进行实验,添加医学领域词典后,F1值提升了1.46%。(3)针对电子病历的高质量标注文本缺失的问题,提出了一种结合BERT模型进行命名实体识别的方法。该方法使用BERT模型对文本进行向量化,使用BI-LSTMCRF框架作为微调的方式进行实体识别。同时在实验部分,分别对比了不同训练方式的语言模型、不同的微调方式以及是否进一步预训练对实体识别效果的影响。实验结果显示,在实验语料上使用BERT作为语言模型,并使用BI-LSTM-CRF的微调方式,得到的效果最好,其F1值达到了83.39%,而进一步预训练使得实体识别的F1值提升约0.54%。
其他文献
<正>3月14日上午,首期碳中和与CCUS前沿沙龙会议在北京友谊宾馆召开。本次沙龙是由中国环境科学学会主办,中国环境科学学会碳捕集利用及封存专业委员会承办,中国科协生态环境
一、市场呼唤美术类职业教育专业教学体系由于市场对应用型、操作型人才需求的增加,职业教育必然向着正规化、专业化和实用化的方向发展。传统教学中重理论、轻实践的模式正在
情感是人的需要是否得到满足时产生的一种内心体验。喜、怒、哀、乐、爱、恶、惧即常说的“七情”,是人对可感事物的一种特殊的反应形式,中学生也不列外。而这些情感的形式是在
本文通过分析传统矿井移交模式,总结了传统矿井在移交过程中存在的问题,结合新桥煤矿矿井移交过程,分析了新桥煤矿矿井移交过程中的创新点。
采用振动测量方法进行齿轮箱故障诊断是一种有效的技术手段,但是在进行随车监测时测量信号会受到车辆其它部件振动噪声的干扰。通过对装甲车辆变速箱齿轮断裂故障进行实车模拟试验,同步测量了变速箱体振动信号和发动机振动信号,利用自适应滤波技术滤除了混杂在变速箱体振动信号中的发动机振动干扰,对变速箱体振动信号进行了时、频域分析和调制解调分析。通过Hilbert变换和包络谱分析方法提取了振动信号频率特征,实现了对
1.引言进入21世纪,大英教学暴露出了学生英语应用能力差的问题,因此,大英教学体系亟需改革。为此,笔者在实践的基础上,总结出一套科学有效的教学模式,即互动式教学法。这种教学模式
学位
运用可靠性设计理论和最优化设计技术,提出了弧齿锥齿轮传动的可靠性优化设计方法;建立了可靠性优化设计数学模型;最后给出了优化实例和结果分析.