论文部分内容阅读
词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述三个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方法。本文充分挖掘概念描述和知识网络蕴含的多种概念耦合关系,包含概念描述中的显式概念共现耦合、知识网络中的显式概念超链接耦合以及两者之间的隐式概念耦合;提出了基于non-IID的概念表示方法,以捕获概念之间显式和隐式的耦合关系,充分利用概念之间的这些耦合关系,获得更加完善的概念语义表示;通过概念映射,将词语与概念语义表示关联起来,进而提升词语相关度计算的效果。在六种不同的真实数据集上,对比七种主流的词向量方法,基于非独立同分布学习的词语概念表示方法都有大幅度的提升,其平均结果至少比基线模型高出20.4%。实验结果表明,该方法能有效地表示概念的语义信息,能够提高词语相关度的计算性能。(2)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到文本分类任务中,提出了基于non-IID词语表示的文本分类方法。首先利用基于non-IID的概念表示方法设计文本特征构建模块,将文本转化为密集的向量表示,为文本提供更加丰富完善的语义表示;同时也使用传统的词表示算法为文本提供普通向量表示;然后将两种向量表示连接起来,作为文本的特征表示;最后使用LIBLINEAR模型训练分类器,获得最终的文本分类结果。实验结果表明,借助于non-IID词语概念表示方法,六种传统的文本分类模型,在20NewsGroup数据集上分类精度上均得到了有效提升,其中F1值平均提高22.8%。(3)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到医疗自动问答任务中,提出了基于non-IID词语表示的医疗问答方法。首先利用基于non-IID的概念表示方法设计词嵌入模块,将问答对转化为密集的向量表示,为问题句和答案句提供更加丰富完善的语义表示;然后针对中文医疗问答任务的特点,设计六种编码器,使用编码器对问答对的向量表示进行编码,以捕获句子内部词语之间的依赖关系,生成问答对的高层语义表示;最后使用余弦相似度算法计算问答对高层语义表示的距离,获得问答对之间的相似性评分,将得分最高的答案作为模型选择的答案。实验结果表明,融入基于non-IID的词语概念表示后,医疗自动问答系统的性能能够得到有效改善,在cMedQA数据集上ACC@1的最高得分达到69.85%,优于传统方法的效果。