标记分布学习在自然语言处理中的应用探究

来源 :北京大学 | 被引量 : 0次 | 上传用户:windows2xp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标记模糊性(label ambiguity),是指在分类任务中模型有时会很难判断一些样本是否应该被打上一个标记,这些样本会处于一种“既可以被打上这个标记,也可以不被打上这个标记”的状态,这是自然语言处理任务中的常见问题,广泛存在于文本分类、情感分析和命名实体识别等任务中。标记分布学习是针对此类问题提出的一种新型有监督学习方法,已经在计算机视觉、生物信息分类等领域取得了显著的成果。然而,目前很少有关于标记分布学习在自然语言处理领域应用的研究。此外,自然语言处理任务不同于其它领域的分类任务,在自然语言处理任务中的样本包含丰富的语义信息,如何利用这些丰富的语义信息来生成标记分布也是一个巨大的挑战。本文针对自然语言处理任务的特点,提出了基于语义关系的标记分布学习算法。该算法通过为包含逻辑标记的传统自然语言处理任务生成标记分布,进而使用生成的标记分布来训练模型、缓解自然语言处理任务中的标记模糊性问题。本文的主要工作是提出了通过计算样本和每个标记之间的相关度从而得到样本的标记分布的四种标记分布学习算法:1)简单易用的基于TF-IDF表示语义关系的TF-IDF-B oWLD(TF-IDF-Bag-Of-Words based Label Distribution)算法;2)由于观察到词频(TF)与相关度之间并不是简单的线性正相关的关系,本文提出了基于BM25表示语义关系的 BM25-BoWLD(BM25-B ag-Of-Words based Label Distribution)算法;3)由于BoWLD算法都基于简单的词袋模型,在追求简单易用的同时丢失了一定的样本语义信息,本文提出了基于预训练词向量表示语义关系的WRLD(Word-Representation based Label Distribution)算法;4)由于传统预训练词向量的方法忽视了同义词之间的关联,本文进一步提出了基于图神经网络引入外部同义词先验知识预训练词向量表示语义关系的 WRLD-SSM(Word-Representation based Label Distribution-Synonymy Similarity Model)算法。研究表明,本文提出的四种标记分布学习算法都能够有效提升模型在自然语言处理任务上的分类效果。本文在文本分类、情感分析和命名实体识别三类任务上验证了上述标记分布学习算法的有效性。此外,为了探讨标记分布学习对于长尾数据集的处理能力,本文还人工构造四个长尾数据集进行了实验,结果表明本文提出的标记分布学习方法在不平衡数据集上仍然可以提高模型分类的准确性。
其他文献
随着我国轨道交通技术的发展,动车组数量急剧增加,同时动车不断进行提速,对其性能与可靠性的要求越来越高,因此需要对动车组进行定期检修。转向架作为动车的重要组成部分,其检修生产面临量大、交货期短的问题,当前以经验为主的排产方式已经不能满足生产要求。本文以G厂动车组转向架检修车间为研究对象,针对产能不足、无法按时交货的现状,运用建模仿真和价值流图的方法,对生产线进行分析,研究发现存在瓶颈工序、平衡率低、
<正>自2007年1月至2009年10月,笔者用浮针配合腹针治疗腰椎间盘突出症54例,并与单纯使用浮针治疗42例进行对比,现报道如下。1临床资料患者全部来自我院门诊及病房,符合国家中