【摘 要】
:
实体集自动扩展技术是通过种子实体集合,结合语料库中的文本信息,扩展出新的同类型实体的技术。在构建知识库、在线问答等领域中有着广阔的应用前景。现有实体集合扩展系统的输入是一个特定类型的种子实体集合和特定领域下的语料库,输出则为所得到的同类的新实体集合。传统的实体集合扩展技术主要有基于概率模型、分布相似性、词向量等的方法。通过提取种子实体在语料中的相应特征,借助该特征匹配其他新实体。然而,传统方法存在
论文部分内容阅读
实体集自动扩展技术是通过种子实体集合,结合语料库中的文本信息,扩展出新的同类型实体的技术。在构建知识库、在线问答等领域中有着广阔的应用前景。现有实体集合扩展系统的输入是一个特定类型的种子实体集合和特定领域下的语料库,输出则为所得到的同类的新实体集合。传统的实体集合扩展技术主要有基于概率模型、分布相似性、词向量等的方法。通过提取种子实体在语料中的相应特征,借助该特征匹配其他新实体。然而,传统方法存在模板去噪和实体语义偏移这两个难点。首先,由实体提取出的模板存在噪声,而这些噪声会在后续新实体的扩展中引入错误。其次,新实体和种子实体存在语义差距,这种差距会随着扩展次数逐渐增大,最终产生语义偏移。为了解决以上两个难点,本文提出了一个基于子集划分和权重衰减的实体集合扩展算法,由上下文模板集合评估和候选实体集合评估两部分组成。其中上下文模板集合评估使用种子实体集合的子集提取出子模板集合,分别对于每一个子模板集合进行预排序。归并各个子模板集合的预排序得到最终排序并提取出新模板集合。能够提取出多个种子实体共同的模板而去除仅单个种子实体提取的模板。候选实体集合评估利用新模板集合的子集提取出候选实体子集,并且分别对于每一个候选实体子集进行预排序,归并各个候选实体子集的预排序得到最终排序提取出新实体集合。在预排序过程中候选实体的权重随着迭代次数进行衰减,某一次迭代出现的候选实体是正确实体的可能性低于前一次的候选实体是正确实体的可能性,这与实际情况符合。降低错误实体的概率,以减轻新实体引入语义偏移的影响。本文在化学药品语料上对提出的实体集合扩展方法进行评估,比现有算法取得了更高的查准率。同时,由于多个种子实体子集划分归并提取了更有效的模板集合,多个模板子集划分归并提取了更有效的新实体,按照迭代次数权重衰减降低了错误实体的权重。在论文的最后,本文分析并指出了该方法可能的改进方向。
其他文献
随着加工制造业柔性化和智能化水平的提高,全自动三维测量技术得到了越来越多的应用,三维测量可实时获取工件毛坯的三维尺寸数据,并将其空间点云坐标信息传输到加工中心,从而实现首次下刀的自动化,并为后续工序的无人化智能作业奠定基础。本文在分析自动化生产线测量需求的基础上,对多线结构光和双目视觉相结合的三维扫描测量技术进行研究。首先,本文针对工件的3D成像及测量需求,对双目立体视觉系统的基本原理进行分析,通
传统的微光夜视仪、红外热像仪成功扩展了人眼的光谱响应范围,可以在黑暗的环境中分辨出目标,但所成图像多为单色图像,由于人眼能分辨的颜色等级是灰度等级的几百倍,长期以来科研工作者们致力于黑白夜视图像的彩色化,以利用人眼视觉特性,更有效地获取目标场景信息。因此,彩色夜视技术的研究有着重要的理论与现实意义,是当前国内外夜视领域的研究热点。为了实现微光条件下真彩色成像,本文基于CMOS传感器研制了真彩色夜视
近年来,随着红外传感器工艺水平的提高,以红外成像技术为核心的红外探测系统不断被应用到安防领域,受到各国的高度关注。红外小目标检测技术是红外探测系统的关键技术,由于红外小目标具有纹理信息少、信噪比低的特点,以及红外小目标周围背景的复杂性和多变性,探索新型的红外小目标检测技术一直是图像处理领域的研究热点。本文以天空场景、海天场景、山地场景和城市场景中的红外小目标作为主体进行分析,主要从以下几个方面进行
红外小目标检测技术是红外预警系统的重要组成部分,但是在复杂背景下该项技术的应用依然面临着不少挑战,主要包括在地面强杂波或云层强杂波下,背景杂波难以抑制的问题,以及小目标运动过程中的交汇、分裂等问题。因此本文对该领域中的上述问题进行了深入研究,具体内容如下:基于红外成像过程推导小目标的像面分布模型,并通过拟合实验,验证模型的有效性。通过对背景杂波进行多尺度差分析,提出了一种基于梯度均值的背景杂波量化
三维人体姿态估计作为人类行为动作识别的关键环节在游戏、体育训练以及人机交互等多个领域都有着广泛的应用前景。目前常见的三维人体姿态估计需要佩戴较为昂贵的辅助设备,运动目标一定程度上会受到这些设备的影响不能够灵活地运动,而且有些运动捕捉设备不能在室外等复杂场景使用。因此本文将成本更低,场景使用更灵活的双目视觉和二维姿态估计相结合来实现三维人体姿态估计。针对基于深度学习的OpenPose算法提取二维关节
随着网络的飞速发展,社会信息化程度的日益提高,轨道交通列车网络需要承载更多的数据,对网络带宽提出了更高的要求。基于以太网的列车实时数据协议(Train Real-time Data Protocol,TRDP),由于其高可靠性及高实时性,而受到了广泛的研究。本文基于Linux系统实现了TRDP协议,并在此基础上完成了基于TRDP的列车门控软件更新系统。首先介绍TRDP和列车门控软件更新系统的背景以
工业焊接中,熔池视觉形态特征对焊接工艺质量的在线控制起着关键的作用,本文对熔池轮廓边缘的提取算法以及成形焊缝宽度的预测方法进行深入的研究,实现了准确的熔池轮廓提取与焊缝宽度预测。主要研究工作如下:(1)建立了基于被动式视觉传感法的熔池图像采集系统,针对TIG焊不锈钢熔池图像的特点,为了在充分挖掘弱边缘信息的同时获得封闭完整的熔池轮廓,对传统图像算法进行改进设计了一种熔池轮廓提取算法(Operato
随着计算机视觉的快速发展,目标跟踪技术在民用和军事等领域得到了广泛地应用,成为当前研究的热门方向。在跟踪任务中,存在着众多的挑战,比如目标遮挡、暂离视场、光照变化、目标形变等,往往造成跟踪任务失败。因此,提升跟踪器应对复杂状况的性能,优化跟踪策略,提高单目标乃至多目标跟踪准确性,具有很高的研究价值。本文针对上述问题开展研究,主要的研究工作分为两个部分:(1)提出基于区域相似性匹配的目标跟踪算法Si
快速增长的互联网消费群体使网络数据呈现爆炸式增长,网络的规模在不断地扩大,网络的拓扑结构也变得日益复杂。同时,消费者对于网络响应的实时性要求在不断提高,这要求系统进行路由选择时能够提供一种快速计算节点之间最短路径算法;计算机网络中同一时间会存在大量的网络请求业务,为了防止网络链路出现负载过重甚至网络拥塞的情况,要求系统能够提供一个优良的全网优化算法对业务进行合理的分配,提高网络资源的整体利用率。本
随着信息技术、网络技术、物联网技术与人工智能技术的发展,控制系统中的被控对象已经从之前的单一对象发展为包含多个对象的多智能体系统。在关于多智能体系统协同控制的研究中一致性研究是其中的一个重要领域,所谓多智能体的一致性意味着各个子系统之间通过信息交流而达到预期状态的一致。在实际控制中一个整体系统的各个子系统之间往往同时存在着竞争和合作的关系,这就要求最后达到的一致性控制效果是双边一致的。与此同时在工