论文部分内容阅读
信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要的子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的演算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面:1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。2)提出一种基于深层语义特征的带时间属性实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。