论文部分内容阅读
随着信息化及互联网的普及,用户获取信息及数据的方式已经从传统方法逐渐转向云端,一些领域的数据获取几乎完全依赖于在线数据库,其中最具代表性的是学术文本。截至目前,谷歌学术(Google Scholar)在线数据库已经收录了数亿篇学术文档。关键词(Keyphrase)是概括文本核心内容的重要标签的单词或短语,起到检索和引导阅读的功能。在大部分学术论文中,作者会提供自己标注的一组关键词。但是,仍有许多特殊的学术文本没有合适的关键词或仅有低质量的关键词,比如早期论文、科普类文章和科技新闻等。自动关键词技术使用计算机技术为这些文本标注高质量关键词,节约了人工二次标注所需的时间和人力成本,为学术数据库的信息检索提供了有效标签。自动关键词技术是用计算机技术从文本中自动提取一组代表性短语或单词作为关键词的技术,这一领域研究方向主要分为无监督的关键词抽取(Keyphrase Extraction)和有监督的序列到序列模型的关键词生成(Keyphrase Generation)。无监督的关键词抽模型小、结构简单且计算资源需求低,但无法获得原文中未出现的(缺席)关键词,而有监督的关键词生成模型计算资源需求高、模型参数多且训练数据量大,却可以生成缺席关键词且具有更好的准确率。在无监督的关键词抽取领域,基于图数据结构的模型受关注度较高,是当前无监督领域的主要研究方向。而关键词生成随着多样化的深度模型框架的发展,许多基于循环神经网络(Recurrent Neural Network,RNN)、生成式对抗网络(Generative Adversarial Networks,GAN)和Transformer等框架的模型被提出。本文提出了自动关键词技术仍存在三方面的问题,并给出了相应的优化解决方案。在无监督的关键词抽取领域,目前的模型普遍存在关键词重叠(Keyphrase Duplication)问题,即抽取的关键词频繁包含同一高分单词。对此,本文提出了一种基于三种特征融合的无监督关键词抽取模型来从建模角度缓解关键词重叠问题。另一方面,无监督抽取模型通常没有使用已抽取关键词之间的互信息(Mutual Information)。对此,本文提出了一种类自回归结构的优化器模型来优化当前模型的抽取结果,通过有效利用关键词之间的互信息来提高模型性能。在序列到序列模型的关键词生成领域,本文对缺席关键词特点进行了研究,提出了新的关键词分类和评估标准,对三种训练范式的性能和归纳偏置进行了经验性研究(Empirical Study)从而总结出了当前模型生成缺席关键词质量低的原因。结合对数据和模型的综合研究提出了一种可以高质量生成缺席关键词的联合模型。本研究在以下三方面有所贡献:1.提出了一种基于特征融合评分的无监督关键词抽取模型Triple Rank,它对关键词多样性、关键词覆盖度和位置信息三个特征分别建模评分并进行分级融合,能够有效降低关键词重叠问题。并且,它在推理过程中不进行图数据结构中的迭代,从而节约了推理时间。经过四个数据集并与基线模型进行对比,Triple Rank具有良好性能并可以缓解关键词重叠问题。2.提出了一种类自回归结构的无监督关键词抽取优化器C-Decay,它解决了关键词抽取过程中缺乏对已抽取关键词之间的互信息的利用的问题,可以大幅提高基于图数据结构的关键词抽取模型的性能。经过四个数据集和三个基线模型相结合的实验证明,C-Decay的优化效果明显。3.在统计的角度上探究了在学术文本数据集中的缺席关键词的特点,提出了一种新的缺席关键词的分类标准和评估方法,对三种广泛使用的训练范式进行了经验性研究。基于这些研究,发现了深度模型生成缺席关键词质量低的根本原因,并提出了一种可以生成高质量缺席关键词的联合模型。