论文部分内容阅读
随着医疗信息化的发展,各种医疗知识库被构建。医疗知识库包括通用的医疗术语标准和针对某一类医疗实体(疾病、药品等)构建的专门知识库,但目前没有标准的症状知识库。而作为医疗实体的重要组成部分,症状实体及实体间的上下位关系对于电子病历文本分析、医疗知识问答和临床决策等应用系统均有着重要作用。因此,症状的实体识别和上下位关系识别是一项重要的任务。由于中文症状描述更像是句子而非词语,因此在上下位关系识别过程中,会有大量未登录词,同时症状词对在语料中的共现也很稀疏,所以目前已有的上下位关系识别方法并不适合于症状实体。 基于症状间上下位关系识别的难点,本文将症状之间的上下位关系抽取看作一个分类问题,提出了基于症状构成特征的上下位关系自动识别方法。具体来说,本文首先将症状按照预定义的构成成分进行切分和成分标注,然后将症状构成特征作为分类特征,又增加了上下位词典特征和通用特征这两类特征,训练了SVM分类模型进行上下位关系的抽取。该方法取得了较好的准确率和召回率,但是无法很好地解决未登录词的问题,因此本文又提出了一种基于带注意力机制的双向GRU方法进行症状上下位关系的识别。本文使用双向GRU对中文症状进行向量建模,通过接收字向量或词向量,辅以注意力机制,以充分考虑症状的内在结构和语义信息。实验结果证明,本文提出的方法比其他现有的上下位关系抽取方法更有效。同时,该方法可以通用于疾病等其他医疗实体的上下位关系识别任务中。