论文部分内容阅读
互联网中有大量的有色金属数据,这些数据大多是以结构化、半结构化或非结构化形式存在。快速、便捷、准确地获取这些数据对有色金属行业乃至整个商业市场有巨大的需求和重要的价值。目前,国内外还没有专门的针对有色金属领域的实体检索系统,本文针对有色金属领域的特点,结合信息检索中实体检索关键难点问题,围绕有色金属领域实体检索过程中的实体识别、实体关系抽取、实体证据文档识别以及实体排序等关键技术展开研究,主要完成以下特色工作:(1)针对有色金属领域产品、矿产、组织机构等几类实体结构复杂、嵌套性强等特点,提出了一种基于深度神经元网络(deep neural network, DNN)架构的有色金属领域实体识别模型。该模型将有色金属领域实体识别任务当作序列标注问题来处理,为了能利用有色金属领域实体中字符之间的紧密结合特征以及有色金属领域特征,模型首先通过word embedding预训练将输入的中文字符表征为一个低维高密度的向量作为DNN模型的输入,然后由DNN模型的多个隐层的逐层预训练自动提取到最优的特征向量作为训练有色金属实体分类器的特征向量,最后在模型输出层通过有监督的神经元语言模型训练实现对有色金属领域实体的识别。实验结果表明针对本文定义的有色金属领域产品、矿产、组织机构这几类有色金属实体识别任务,提出的模型取得了较好的效果。(2)针对有色金属领域产品、矿产、组织机构等几类实体在文档中的关系特点,提出了一种基于深度信念网络架构(deep belief network,DBN)的有色金属领域实体关系抽取模型。该模型首先将有色金属实体关系实例表征为word embedding向量作为DBN模型的输入,然后通过DBN网络多个隐层的逐层训练得到有色金属领域关系实例对的有效特征向量,并作为训练有色金属领域实体关系识别分类器的特征向量,最后在训练有色金属领域实体关系抽取分类器的过程中利用已标注好的关系实例样本通过反向传播(back propagation, BP)网络来不断优化整个DBN模型的参数,从而达到较好的关系分类效果。实验结果表明提出的方法针对有色金属领域实体之间的同类关系、生产销售关系、从属关系这三种关系类型的抽取任务具有较好的效果。(3)构建了有色金属实体证据文档识别无向图模型。首先分析各类有色金属实体证据文档中的词、URL链接、有色金属实体元数据等独立页面特征以及候选有色金属实体证据文档间的链接和内容等关联关系,然后将独立页面特征以及页面之间的关联关系融入到无向图中构建有色金属实体证据文档识别无向图模型,最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行有色金属实体证据文档识别,实验结果表明所提方法有较好的效果。(4)提出了基于深度学习的有色金属实体排序模型。该模型首先通过深度网络的多层非线性变换分别将影响有色金属实体排序的查询向量、有色金属实体元数据向量、有色金属实体关系向量以及有色金属实体相关候选文档映射到同一个低维的语义空间向量,然后分别计算查询、有色金属实体元数据、有色金属实体关系与候选文档在变换后的低维语义空间中对应的向量之间的相似性,最后融合候选文档与这三个向量的语义相似性作为最终排序得分。实验结果表明我们的模型针对有色金属领域实体排序任务具有较好的效果。