信息抽取中实体关系识别研究

被引量 : 0次 | 上传用户:lz1111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面:1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。
其他文献
文冠果(Xanthoceras sorbifolia Bunge)是我国北方特有的木本油料树种,该树种种子含油量高,其种仁含油量可达60%以上,特别是富含油酸和亚油酸这两种优质不饱和脂肪酸。本文通
预拌混凝土在我国的大部分发达地区已经有了较快的发展,为进一步推广预拌混凝土技术的应用,提高安阳地区多组分预拌混凝土配合比设计水平,充分利用当地建筑材料,降低生产成本
目前,控制爆破技术在国内外的隧道施工中已经得到了试验和应用,并且也取得了一定的成功。随着交通运输网络的大力发展,现有线路已远远不能满足交通运输的需求,越来越多的新建
知识经济时代,企业和员工都面临着比以往任何时候更加激烈的竞争,企业的竞争结果很大程度上是由企业员工能力的高低决定,这就使得现代企业比以往任何时候都更加关注员工的能
针对多尺度Retinex算法在处理煤矿井下低照度图像时存在细节增强不足和耗时等问题,提出了一种基于光照校正的快速多尺度Retinex算法对煤矿井下低照度图像进行增强。该算法通
目的通过建立大鼠骨性关节炎(OA)模型探讨补体复合物(MAC)在软骨及滑膜中的表达。方法将30只SD大鼠随机分为对照组、4周组、8周组、12周组,每组10只。手术组取大鼠后肢一侧膝关节
绝缘电阻是温度仪表铠装热电偶的技术参数之一,单位有MΩ.m 和MΩ两种。铠装热电偶产品因为使用铠装热电偶电缆,产品绝缘电阻的检测值与测温元件铠装电缆的绝缘电阻值密切相关,
运用文献资料法、比较分析法等方法对中国京剧和西方歌剧形成的审美背景进行归纳探究,分别从不同的文化背景、社会背景、历史以及宗教信仰等方面,阐述两种优秀艺术形式的形成
<正> 近两年来珠海市斗门区的南美白对虾养殖发展迅速,虾病随之而来,笔者根据多年来从事水产技术推广工作的经验,结合中西用药的特点,针对虾苗放塘后出现的游塘现象采用中西
以2015年5月20日广东省一次大范围暴雨过程为研究对象,利用ECMWF集合预报产品选出了预报好和差的成员,对比分析了环流形势场和物理量场的差异,找出了暴雨敏感因子。结果表明: