论文部分内容阅读
在中文电子病历命名实体识别任务中,为了消除传统命名实体识别方法高度依赖人工提取特征这一不足,设计了双向长短时记忆(Bi-LSTM)网络与条件随机场(CRF)结合的网络模型,并在联合网络的基础上添加注意力机制,从而优化实体识别准确率。首先,将中文电子病历数据集进行脱敏处理及序列标注等预处理;其次,结合词嵌入技术将电子病历文本序列进行词向量化表示,并利用Bi-LSTM网络模型构造包含前向和后向文本的语义特征;然后,将双向特征序列输入到注意力层,利用注意力机制对文本特征向量的语义编码分配不同的注意力权重,