论文部分内容阅读
随着计算机应用技术的发展与人工智能技术的兴起,如何快速且高效的从日益剧增的互联网数据中获取有价值的数据,是当前自然语言处理领域的重要研究问题。属性抽取(Attribute Extraction),即实体的属性值抽取,是从非结构化文本等数据源中自动抽取出实体的相关属性值,是问答系统(Question Answer ing System,QA)、信息抽取(Information Extraction)、知识图谱(Knowledge Gra ph,KG)等自然语言处理任务(Nature Language Process,NLP)的基础。本文研究旅游领域的实体属性抽取方法,以双向长短时记忆网络-条件随机场(Bidirectional Long Short-term Memory-Conditional Random Fields,BLSTM-CRF)模型为基础,提出一种新的融合残差卷积神经网络与自注意力机制的属性抽取方法。过去有关属性抽取的工作多是基于封闭世界假说(Closed World Assumption)的条件下,或是引入词典,或是引入人工特征。但是这种方法只能发现已有的属性,不能够发现新的属性。除此之外,这些方法还存在大量且昂贵的人力成本问题。本文将属性抽取问题转化为序列标注问题,通过实验验证了模型的有效性。论文主要工作如下:首先,通过爬虫技术爬取了百科类网站以及垂直旅游领域网站的景点文本,并进行筛选、整理、标注构建旅游领域的属性抽取数据集CTFAE,并对该数据集按80%、10%、10%比例划分为训练集、验证集、测试集,为接下来的属性抽取工作做准备。其次,本文首先基于BLSTM-CRF模型,提出基于残差卷积神经网络(Res idual Convolutional Neural Network,ResCNN)的属性抽取模型,该模型使用具有残差学习功能的卷积神经网络,对预训练语言模型Bidirectional Encoder Rep resentations from Transformers(BERT)输出的向量化文本抽取局部特征,然后将抽取的特征与BERT的输出向量拼接,送入BLSTM中捕获文本的上下文信息,最后利用CRF学习标签之间的关系。本文中使用带有残差操作的卷积神经网络与没有使用该部分相比,该操作能够进一步加强文本的向量化表示。然后,本文再次基于BLSTM-CRF模型,提出基于自注意力机制的混合模型。该模型利用自注意力机制的能够无视输入文本之间的距离问题的特点,直接计算依赖关系,学习句子的内部结构特点,将自注意力机制用在BLSTM之后,对B LSTM输出的隐层向量进行处理,最后与条件随机场(CRF)连接,捕捉标签的内部依赖关系。最后,本文融合上述的基于残差卷积神经网络模型与基于自注意力机制模型,同时利用残差卷积神经网络能够加强字嵌入文本的向量化表示与自注意力机制能够捕捉文本的长距离依赖的特点,进一步提出了融合残差卷积神经网络与自注意力机制模型,值得一提的是,该模型在残差卷积神经网络与BLSTM网络之后都有一个自注意力机制层,实验结果证明,自注意力机制对残差卷积神经网络与BLSTM同时有效。通过实验证明,融合残差卷积神经网络与自注意力机制的属性抽取模型与基线模型相比,在MSRA数据集和CTFAE数据集上分别提升了0.89%和1.59%。本文将抽取到的属性根据属性特点划分成单值属性、多值属性,分别采用基于可信度计算的属性融合方法、多值属性融合方法,最终一共获得了4071个高可靠性三元组。