论文部分内容阅读
伴随着医疗信息化在国内的不断推进,顶级医疗机构在过去十年间已积累了大量电子病历。然而,电子病历中很大一部分字段仍以非结构化文本的形式保存,难以进行二次利用。自然语言处理技术是解决这一问题的一把关键钥匙,而中文分词算法则是自然语言处理技术的基石。基于监督学习的中文分词算法依赖于一定数量的标注语料进行模型的训练,而电子病历文本的词汇构成及分布与通用领域存在着较大差异,这也造成了电子病历文本标注难度高,训练语料匮乏等问题。也正因此,目前成熟的分词模型与算法尚无法完全适用于医疗领域的相关应用中。 本文提出了一种基于多语料对抗学习的中文分词算法。该模型可以利用大规模公开的通用领域分词语料,在小规模的电子病历语料的辅助下,完成分词模型的领域迁移。该算法在降低了标注代价的同时,有效地提高了中文分词在医疗领域的识别精度。首先,本文设计了门控机制以改进现有的多语料学习框架,更好地通过不同上下文内容,进行共享特征的选择;其次采取了对抗学习策略,并引入了新的对抗损失函数,解决电子病历语料在训练过程中因样本不平衡而导致的“对抗失效”问题,进一步提升了模型整体的精度及泛化能力。实验结果表明,本文方法取得了87.01%的准确率,86.64%的召回率以及86.82%的F1值,均高于现有的监督学习方法以及开源的中文分词工具。