有色金属领域实体检索关键技术研究

被引量 : 3次 | 上传用户:xwp1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中有大量的有色金属数据,这些数据大多是以结构化、半结构化或非结构化形式存在。快速、便捷、准确地获取这些数据对有色金属行业乃至整个商业市场有巨大的需求和重要的价值。目前,国内外还没有专门的针对有色金属领域的实体检索系统,本文针对有色金属领域的特点,结合信息检索中实体检索关键难点问题,围绕有色金属领域实体检索过程中的实体识别、实体关系抽取、实体证据文档识别以及实体排序等关键技术展开研究,主要完成以下特色工作:(1)针对有色金属领域产品、矿产、组织机构等几类实体结构复杂、嵌套性强等特点,提出了一种基于深度神经元网络(deep neural network, DNN)架构的有色金属领域实体识别模型。该模型将有色金属领域实体识别任务当作序列标注问题来处理,为了能利用有色金属领域实体中字符之间的紧密结合特征以及有色金属领域特征,模型首先通过word embedding预训练将输入的中文字符表征为一个低维高密度的向量作为DNN模型的输入,然后由DNN模型的多个隐层的逐层预训练自动提取到最优的特征向量作为训练有色金属实体分类器的特征向量,最后在模型输出层通过有监督的神经元语言模型训练实现对有色金属领域实体的识别。实验结果表明针对本文定义的有色金属领域产品、矿产、组织机构这几类有色金属实体识别任务,提出的模型取得了较好的效果。(2)针对有色金属领域产品、矿产、组织机构等几类实体在文档中的关系特点,提出了一种基于深度信念网络架构(deep belief network,DBN)的有色金属领域实体关系抽取模型。该模型首先将有色金属实体关系实例表征为word embedding向量作为DBN模型的输入,然后通过DBN网络多个隐层的逐层训练得到有色金属领域关系实例对的有效特征向量,并作为训练有色金属领域实体关系识别分类器的特征向量,最后在训练有色金属领域实体关系抽取分类器的过程中利用已标注好的关系实例样本通过反向传播(back propagation, BP)网络来不断优化整个DBN模型的参数,从而达到较好的关系分类效果。实验结果表明提出的方法针对有色金属领域实体之间的同类关系、生产销售关系、从属关系这三种关系类型的抽取任务具有较好的效果。(3)构建了有色金属实体证据文档识别无向图模型。首先分析各类有色金属实体证据文档中的词、URL链接、有色金属实体元数据等独立页面特征以及候选有色金属实体证据文档间的链接和内容等关联关系,然后将独立页面特征以及页面之间的关联关系融入到无向图中构建有色金属实体证据文档识别无向图模型,最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行有色金属实体证据文档识别,实验结果表明所提方法有较好的效果。(4)提出了基于深度学习的有色金属实体排序模型。该模型首先通过深度网络的多层非线性变换分别将影响有色金属实体排序的查询向量、有色金属实体元数据向量、有色金属实体关系向量以及有色金属实体相关候选文档映射到同一个低维的语义空间向量,然后分别计算查询、有色金属实体元数据、有色金属实体关系与候选文档在变换后的低维语义空间中对应的向量之间的相似性,最后融合候选文档与这三个向量的语义相似性作为最终排序得分。实验结果表明我们的模型针对有色金属领域实体排序任务具有较好的效果。
其他文献
以苯乙烯(St)、正硅酸乙酯(TEOS)、二乙烯基苯(DVB)为主要原料,采用双原位细乳液工艺和不同引发体系,制备SiO2/PS复合微球,并以此为种子乳液,继续滴加第2种单体甲基丙烯酸甲
选择2012年4月~2014年4月于我院就诊的75例多发性子宫内膜息肉患者作为研究对象。根据患者有无生育要求、年龄以及是否绝经等情况分为A、B和C三组。其中,A组:28例,有生育要求,
我国应当在科学认识森林资源价值的基础上,根据森林生态规律和林业经济规律的基本要求,立足于我国森林资源和林业产业发展的现实国情,借鉴俄、德、日等国家森林立法的先进经
目的:描述延边地区孕妇孕期健康状况、保健知识、保健行为的现状;明确社会人口学特征与孕期保健知识及行为的差异;阐述孕妇的健康状况、保健知识、保健行为的相关性并探讨孕妇保
本文在传信范畴下对现代汉语表确定义副词进行多角度观察,对其内部成员“一定”、“肯定”、“绝对”、“的确”、“确实”、“实在”进行句法、语义、语用等方面的描写与解释
<正>从厦门市商务局获悉,将有四大举措拓展服务外包业务:一是加强服务外包招商引资工作,加大对知名服务外包企业的招商引资工作,并鼓励在厦跨国企业积极向其母公司推介并承接
目前我国许多地区的农林副产物常被作为废弃物就地焚烧处理,城市园林废弃物也被作为垃圾处理,不但浪费能源,也造成环境污染。同时,这些地区小型供热需求也持续增长,因此,开发
"执行难"既是长期困扰人民法院执行工作的问题,也是复杂的社会问题。本文在分析"执行难"的表现与危害、"执行难"的原因的基础上,从制度安排的角度认为克服"执行难"必须建构包
针对扬州地区春大棚番茄生产中灌水量和施肥量尚未明确的问题,以番茄主栽品种‘金冠一号’为试材,根据番茄作物所需水肥和各地生产中灌水和追肥经验,以及当地土壤和气候条件,
云计算技术的迅速发展使得在其基础上发展出来的云存储服务也逐渐应用于各行各业。云存储在互联网下实现了协同工作和信息共享,同时,用户和资源的数量也是巨大的且在动态变化