论文部分内容阅读
随着计算机技术的普及和生物领域的高速发展,生物医学领域文献的增长呈现指数级。如何从海量数据中快速高效地获取生物医学知识,这就涉及到信息抽取技术。问题蕴含识别是信息抽取的重要任务,旨在识别问题文本对之间的蕴含关系。在生物医学领域中,问题蕴含识别在信息检索和问题回答系统中有着重要的应用。本文主要针对生物医学问题对进行蕴含关系识别。主要研究内容如下:研究基于多任务的生物医学问题蕴含识别。生物医学领域存在大量问答任务语料,合理利用这些语料能够有效的辅助生物医学问题蕴含识别性能。首先,利用共享的BioBERT模型学习获得问答句子对和问题蕴含识别句子对的上下文词表示。然后,构建基于多任务的问答句子对语义表示和问题蕴含句子对语义表示,用于两个任务的分类。深入探究不同的神经网络模型对问题表示学习性能的影响。实验表明,通过与生物医学问答任务表示共享,多任务学习能够有效提高生物医学问题蕴含识别性能。研究基于问题类型特征的生物医学问题蕴含识别。同一类型的问题才存在蕴含关系,问题类型特征对问题蕴含识别具有辅助作用。首先,基于BioBERT模型训练获得问题类型分类教师模型。然后利用教师模型的预测概率分布表示指导基于问题类型模板的问题类型分类学生模型,使学生模型能够同时获得教师模型的预训练语言知识和学生模型自身的模板知识。最后,基于学生模型获得问题类型表示,辅助基于多任务的问题蕴含识别。实验表明,教师-学生模型能够融合教师模型的预训练语言知识和学生模型的模板知识,有效地提高生物医学问题蕴含识别性能。研究基于单代长短时知识蒸馏的生物医学问题蕴含识别。单代知识蒸馏能够利用模型自身前期学习到的知识高质量地指导模型后期的学习。在问题蕴含识别模型训练过程中,基于每一个epoch训练得到问题蕴含识别模型作为短时教师模型,利用预测概率分布表示指导下一个epoch的学习。同时,将多轮连续epoch聚合成不相交的子代(mini-generation),基于每一个mini-generation训练得到问题蕴含识别模型作为长时教师模型,利用预测概率分布表示指导下一个mini-generation的学习。实验表明,单代长短时知识蒸馏学习策略能够有效利用模型已学到的先验知识,指导模型自身的学习,进一步提高生物医学问题蕴含识别性能。本文研究在实现较高的生物医学问题蕴含识别性能基础上,还可以扩展到通用领域的文本蕴含识别任务中,具有领域普适性。