论文部分内容阅读
标记模糊性(label ambiguity),是指在分类任务中模型有时会很难判断一些样本是否应该被打上一个标记,这些样本会处于一种“既可以被打上这个标记,也可以不被打上这个标记”的状态,这是自然语言处理任务中的常见问题,广泛存在于文本分类、情感分析和命名实体识别等任务中。标记分布学习是针对此类问题提出的一种新型有监督学习方法,已经在计算机视觉、生物信息分类等领域取得了显著的成果。然而,目前很少有关于标记分布学习在自然语言处理领域应用的研究。此外,自然语言处理任务不同于其它领域的分类任务,在自然语言处理任务中的样本包含丰富的语义信息,如何利用这些丰富的语义信息来生成标记分布也是一个巨大的挑战。本文针对自然语言处理任务的特点,提出了基于语义关系的标记分布学习算法。该算法通过为包含逻辑标记的传统自然语言处理任务生成标记分布,进而使用生成的标记分布来训练模型、缓解自然语言处理任务中的标记模糊性问题。本文的主要工作是提出了通过计算样本和每个标记之间的相关度从而得到样本的标记分布的四种标记分布学习算法:1)简单易用的基于TF-IDF表示语义关系的TF-IDF-B oWLD(TF-IDF-Bag-Of-Words based Label Distribution)算法;2)由于观察到词频(TF)与相关度之间并不是简单的线性正相关的关系,本文提出了基于BM25表示语义关系的 BM25-BoWLD(BM25-B ag-Of-Words based Label Distribution)算法;3)由于BoWLD算法都基于简单的词袋模型,在追求简单易用的同时丢失了一定的样本语义信息,本文提出了基于预训练词向量表示语义关系的WRLD(Word-Representation based Label Distribution)算法;4)由于传统预训练词向量的方法忽视了同义词之间的关联,本文进一步提出了基于图神经网络引入外部同义词先验知识预训练词向量表示语义关系的 WRLD-SSM(Word-Representation based Label Distribution-Synonymy Similarity Model)算法。研究表明,本文提出的四种标记分布学习算法都能够有效提升模型在自然语言处理任务上的分类效果。本文在文本分类、情感分析和命名实体识别三类任务上验证了上述标记分布学习算法的有效性。此外,为了探讨标记分布学习对于长尾数据集的处理能力,本文还人工构造四个长尾数据集进行了实验,结果表明本文提出的标记分布学习方法在不平衡数据集上仍然可以提高模型分类的准确性。