基于领域本体构建的Web信息抽取

来源 :图书情报工作网刊 | 被引量 : 0次 | 上传用户:ywqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 指出本体的涵义、类别和构成以及基于语义的领域本体的构建模式和设计标准。在详细阐述信息抽取的涵义、特征、类型以及与信息检索关系的基础上,重点探讨基于领域本体构建的Web信息抽取。从基于本体的信息抽取的原理,特点、方法和过程几个方面论述基于领域本体构建的Web信息抽取的实现。最后指出目前存在的两大技术瓶颈。
  [关键词] 领域本体 本体构建 信息抽取
  
  1 引言
  
  随着计算机技术和Internet的迅猛发展,Web已成为跨全球的信息源,如何快速、准确地从浩瀚的信息资源中寻找所需的信息已经成为困扰用户的一个难题。检索不能只盯着字面,而应当关注字面下隐藏的“内容”[1]。如何才能确定一篇文章、一张图片、一段视频或者音频流的内容呢?以查全率、查准率和检索速度为评判标准的关键词检索很难有大的作为,基于内容的检索就成为研究热点。
  目前Web数据大都以半结构化为主的HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,对于数据查询是十分不易的,这使得应用程序无法直接解析并利用Web上的海量信息[2]。在这样的背景下,为了增强Web数据的可用性,出现了Web信息抽取(information extraction,简称IE)技术。Web信息抽取是将信息抽取技术应用于Web网页,其面向的对象不是纯文本文件,而是半结构化的网页文本。
  在语义层次上,本体是Web 信息共享和交换的基础。将本体引入信息科学,就是从语义层次上考察事物的运动状态及状态的变化方式,把本体意义上的信息赋予更具体的内涵。因此,将本体应用到信息抽取可以从语义上消除歧义,提高信息抽取系统的抽取性能。目前,面向语义的Web 信息集成方法一般都基于本体,主要是利用对数据本身的描述信息实现抽取,对网页结构依赖少,而且本体提供机器可识别的领域概念知识及其关系,具有简单的推理能力,对抽取出的实体之间联系领域知识有识别能力。本文主要探讨信息抽取系统中领域本体的构建方法和Web信息抽取的实现。
  在基于领域本体的信息抽取中,领域本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,提供对该领域知识的共同理解,确定领域内共同认可的词汇,并从不同层次的形式模式上给出这些词汇和术语间相互关系的明确定义,实现对该领域知识的推理。这将为信息抽取提供统一的概念和术语标准,提高信息抽取的准确性。
  
  2 本体
  
  2.1 本体的涵义
  本体最开始是一个哲学的概念,用来描述事物的本质。后来本体被用于人工智能、计算机等方面。在自然语言处理中,本体被认为是特定领域内概念及概念之间关系的集合,它能够有效地表达特定领域内的概念、实体、关系等通用知识。本体描述语言能够描述复杂的关系并具有简单的推理能力。作为一种有效表示概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能信息组织和检索系统。
  2.2 本体分类
  本体按照研究主题分为5种类型:知识表示本体、通用本体、领域本体、语言学本体和任务本体。本体的研究和开发工作是在不同层次上进行的。根据本体的研究层次,可分为顶级本体、领域本体、任务本体和应用本体。①顶级本体。主要研究非常通用的概念,描述的是最普遍的概念及概念之间的关系,它们完全独立于特定的问题或领域,与具体的应用无关,可以在一个很大的范围内共享。②领域本体。研究与一个特定领域相关的术语或词汇,描述的是特定领域中的概念和概念之间的关系。③任务本体。定义通用任务或推理活动,描述的是特定任务或行为中的概念及概念之间的关系。任务本体和领域本体处于同一个研究和开发层次。④应用本体。描述特定的应用,它既可以应用特定领域本体中的概念,又可以应用出现在任务本体中的概念[3]。本文重点探讨领域本体的构建以及与信息抽取的关系。
  2.3 本体构成
  本体的具体构成过程,可以用下面的公式形象地给出。组成本体的5个基本的建模元语为:C,R,F,A,I。
  本体(ontology)=概念(concepts)+关系(relations)+函数(functions)+公理(axiom)+实例(instances)
  概念(concepts):其含义非常广泛,可以指任何事物,如描述、功能、行为、策略和推理过程等,本体中的这些概念通常构成一个分类层次。
  关系(relations):关系代表了在领域中概念之间的交互作用。
  函数(functions):函数是一类特殊关系。在这种)表示y是x的母亲。
  公理(axiom):代表永真断言,是定义在“概念”和“属性”上的限定和规则,比如概念乙属于概念甲的范围。
  实例(instances):属于某概念类的基本元素,即某概念所指的具体实体。概念的定义一般采用框架结构,包括概念的名称、与其它概念之间关系的集合以及用自然语言对该概念的描述。基本的关系有4种:part-of,kind-of,instance of和attribute of[3]。
  在实际应用中,不一定要严格地按照上述5类元素来构造本体,一些轻量级的本体仅由C,R,I组成。同时概念之间的关系也不仅限于上面列出的4种基本关系,可以根据特定领域的具体情况定义相应的关系,以满足应用的需要。
  
  3 基于语义的领域本体构建
  
  3.1 领域本体构建模式
  基于本体的信息抽取由领域内的相关概念、属性、关系、约束及术语或实例等构成。主要是利用领域本体对领域内数据的描述信息来实现抽取,本体的构建是信息抽取的基础与核心,领域本体构建的好坏将直接影响到信息抽取的性能,如何构建出良好的本体对提高信息抽取的精确度有直接的影响。但目前还不能构建出通用型本体,只能对特定领域构建。
  首先要构建一个形式本体,即能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法。这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。
  第一段:概念化。所谓概念化就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属中关系、交叉关系、全异关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。元概念选择可以根据需要增减,以这些元概念为核心,再根据信息学内容和表现形式进一步分类,就很容易与实际存在的信息或知识相连通。
  第二段:模型化。在本体概念确定后,所谓模型化就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型,用网络联络。与普通树型数据结构的元数据不同的是,形式本体论容许各级概念的交叉渗透。
  第三段:软件化。所谓软件化就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面就可以将世界上所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。
  3.2 本体的设计准则
  本体的构建遵循以下准则:①清晰明了。本体必须能有效地说明所定义的类、概念、属性、属性值的含义。本体中所有的类名、概念、属性等术语应该能清楚地表达所要传递的意义,不能有二义性。②一致性。本体应该是一致的,即本体所定义的公理、某些推理以及本体的描述文档都应该具有一致性。③可扩展性。本体应该为可预料到的任务提供概念基础,并可支持在已有概念基础上定义新的术语,以满足特殊需求,而无需修改已有的概念定义。④简洁高效编码。概念的编码应该简洁高效,以便计算机容易处理。
  3.3 本体的构建步骤
  以领域本体为例,构建步骤如图1所示:
  3.3.1 需求分析确定领域本体的应用目的、领域与范围、表示方法与用途等。
  3.3.2 罗列领域中重要的概念、术语在领域本体创建的初始阶段,尽可能地列举出该领域内所有够看到、想到的概念和术语。
  3.3.3 构建领域本体框架罗列出领域中大量的概念、术语,这是一张无组织结构的汇表,需要按照一定的逻辑规则对它们进行分类形成不同的子领域,在同一子领域下的概念、术语相关性较强。另外,对其中的每一个概念、术语重要性要进行评估,选出关键性的概念、术语,放弃那些不必要或者超出领域范围的概念、术语,确立概念及概念间的等级关系,尽可能准确而简要地表达出领域的知识,从而形成一个领域知识的框架体系,得到领域本体的框架结构。构建领域本体框架包括:①定义领域本体中的类,即划分子领域本体;②定义领域本体中的概念及概念间的关系,采用自上向下的方法定义领域本体中的概念(先定义领域中综合的、概括性的概念,然后逐步细化说明);③定义属性值(属性值既可以是一个具体数值也可以是一个描述),即通过属性值来说明属性的取值类型、值个数及有关值的其他特征;④创建实例,即创建概念的特征词。
  3.3.4 对领域本体编码、形式化选用合适的本体描述语言对上述所建立的领域本体进行编码、形式化,以便对领域本体进行计算机处理。
  3.3.5 领域本体的确认和评价评价包括本体的清晰性、一致性、可扩展性等方面[4]。
  
  4 信息抽取
  
  4.1 信息抽取涵义
  信息抽取(information extraction)是从自然语言形式的文本中抽取用户感兴趣的事实、事件以及卷入其中的特定类型的实体等信息,并将这些信息转换为结构化的数据并存储的过程[5]。信息抽取是自然语言处理(natural language process,NLP)和人工智能(artificial intelligent,AI)结合的结果,是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出,供用户查询和使用的文本处理技术。广义上,信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。信息抽取技术的最终目的就是从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库[6]。
  4.2 信息抽取特征
  信息抽取作为自然语言处理中一个发展很快的研究领域,有如下特征:①信息抽取是当前文本挖掘中最为突出的一项技术,这一技术结合了自然语言处理、语料资源以及语义技术,目前正趋于成熟;②信息抽取不是从文件集中选取一个与用户需求相关的子集,而是从文本中直接抽取与用户需求相关的事实或信息;③信息抽取是一个从无结构的自由文本或其他信息资源中抽取出结构化、无二义性信息的过程[7]。
  4.3 信息抽取与信息检索
  与信息抽取密切相关的一项研究是信息检索(information retrieval,IR)技术。信息抽取与信息检索密切相关,但二者存在差异,主要表现在三个方面:①实现功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。②处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。③适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息[8]。虽然信息抽取与信息检索有区别,但两种技术是互补的。在海量文本处理过程中,信息抽取系统往往以信息检索系统的输出为输入,而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地满足用户的信息处理需求。
  4.4 信息抽取类型
  信息抽取技术随着需求的增加而不断丰富,近年来国内外涌现出多种信息抽取方法,根据抽取原理和抽取方式的不同,分为以下几类:基于自然语言处理方式、基于包装器归纳方式、基于HTML结构方式和基于Web查询方式等。信息抽取系统各有其特点,但多采用基于模板和模式匹配,或者是采用基于统计的学习方法。这些方法都需要在前期准备大量的手工标注训练文本,然后对训练文本进行学习。但是训练文本不可能覆盖整个领域内出现的所有语言习惯。另外,信息抽取虽然能抽取出实体,但是缺乏领域知识来识别抽取实体之间的关系。要克服这些局限,其一是增强模板的知识表达能力,其二是运用某种歧义消解机制。针对这种情况,在Web信息抽取中引入一种能处理语义的基于本体的信息抽取技术[9]。
  
  5基于领域本体构建的Web信息抽取的实现
  
  5.1 基于本体的信息抽取
  基于本体的信息抽取技术是一种把本体和信息抽取技术结合起来实现信息抽取的技术,近年来受到了广泛关注,已成为信息抽取研究的一个热点,并广泛应用于半结构化信息抽取技术中。基于本体的信息抽取技术主要是在信息抽取任务中引入相应的领域知识——领域本体来指导抽取过程 [10]。作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中,知识库的结构和内容是不同的,但一般来说,都要有一个领域本体,该领域本体通常是面向特定领域或场景的,是通用概念层次模型在特定领域或场景的细化或泛化。基于领域本体的信息抽取系统能提供用户感兴趣的特定信息,并通过领域本体为信息源提供必要的语义标注信息,从而使系统对领域内的概念、概念之间的联系有统一的认识,有效地提高信息抽取的性能,提高信息抽取的准确率与覆盖率,并进一步提高系统的查准率和召回率,为用户提供更有价值的信息。
  5.2 基于本体的信息抽取特点
  本体信息抽取是新型的信息抽取方式,它利用本体网格而不是扁平结构的辞典与词表来识别抽取内容,本体信息抽取可以在语义层面理解抽取内容,从语义信息入手进行抽取,并可通过本体实例对抽取内容进行语义标注,可大大提高信息的召回率和精确度[11]。由于基于本体的信息抽取是一种基于本体、能处理语义的信息抽取系统,更为重要的是基于本体的信息抽取模型非常适合作为下一代Web技术的通用语义抽取模型,因为下一代Web技术——semantic Web是基于本体的Web技术。
  5.3基于本体的信息抽取方法
  5.3.1 知识工程的方法由专家对语料库本体进行分析、调整而人工制定规则、模板。根据选定的训练集中的数据来确定本体中出现的概念和关系,建立本体;手工统计概念和关系中出现的关键字,然后根据规则进行抽取。因为本体的构建和规则的制定是建立在特定的训练集上的,实际的抽取过程中如果抽取的文本结构和表述方式发生变化时,对于抽取的结果影响非常大。这种方法需要有经验的工程师来开发,个人的直觉能够对系统的性能产生很大的影响,性能较好,开发周期长。
  5.3.2 自动训练方法给出根据本体中的概念进行标注的例子文档集,通过机器学习的方法来推导模板和模板的自动填充知识库和规则。也应用统计学的方法来抽取。使用这种方法的开发者并不需要掌握语言工程知识,但需要大量的经过标注的训练数据。如果需要对这类系统的核心数据进行修改,则相应的所有训练数据也需要重新标注[10]。
  5.4 基于本体的信息抽取过程
  基于本体的信息抽取的基本设计思路如下:在领域专家的帮助下,建立相关领域的本体。在构建完整的领域本体的基础上,收集信息源中的数据,并参照已建立的本体,参考本体论对异构信息进行标引,将概念关系生成标注规则,这些规则是抽取与领域相关的信息的一组原则,利用本体库得到的形式化地表达。还要利用这些概念关系参与文本的语法分析,把语法分析的结果和本体标注规则结合在一起生成信息标注器,再通过信息抽取器得到所需要的信息。本体论可以从语义信息入手进行抽取,这样可大大提高信息的召回率和精确度[12h]。基于本体的信息抽取过程如图2所示:
  
  6 结束语
  
  目前,基于本体的Web信息抽取技术的研究虽然取得了一定进展,但仍是一个新的研究领域,处于探索阶段。首先需要解决的问题是如何构建高质量的本体。本体的设计是一个创造性的过程,而领域本体的构建更是一个极具挑战性的工作。因为本体的建立需要领域专家的参与且需要耗费大量的人力和物力,特别是领域内实例术语的获取。依靠手工获得是不现实的,现在大量的研究致力于自动构建本体,自动获取本体的概念和关系,并利用信息抽取技术来自动获取本体中的实例。如何才能构建出高质量的本体,充分发挥本体的全部潜能,提高信息抽取的准确性是问题的瓶颈。其次,在一个新领域上建立信息抽取系统需要许多该领域专家和熟悉NLP (neuro-linguistic programming)系统的计算机语言学家的共同努力,既费时又费力。由于本体的自动构建技术还很不成熟,领域知识的自动获取还依赖于信息抽取技术。今后,只有提高本体的自动构建技术和信息抽取技术,使得两种技术相互促进,基于本体的信息抽取技术才能有个更大的发展空间。
  
  参考文献:
  [1] 陈立娜,张红,马莉.基于本体的旅游信息抽取.计算机应用软件,2010(4): 146-161.
  [2] 陆进科,李新颖.基于Ontology的文本信息抽取.计算机应用研究,2003(7): 46-48.
  [3] 宋炜,张铭.语义网简明教程.北京:高等教育出版社,2004.
  [4] 于江德,李学钰,樊孝忠.信息抽取中领域本体的设计和实现.电子科技大学学报,2008(9): 746-749.
  [5] 俞士汶,段慧明,朱学锋,等.综合型语言知识库的建设和利用.中文信息学,2004,18(5):1-10.
  [6] 何召卫,陈俊亮.基于本体关系匹配的信息抽取.计算机工程,2007 (11): 207-209.
  [7] 周峰,吴斌,石川.复杂网络构建中信息抽取技术综述.数字图书馆论坛,2008(6):28-33.
  [8] 刘迁,焦慧.信息抽取技术的发展现状及构建方法的研究.计算机应用研究,2007(7):6-9.
  [9] 陈静,朱巧云,贡正仙.基于Ontology的信息抽取研究综述.计算机技术与发展,2007(10): 84-91.
  [10] 徐静,孙坦,黄飞燕.近两年国外本体应用研究进展.图书馆建设,2008 (8): 84-90.
  [11] 徐萍,邵波.基于本体信息抽取的竞争情报预处理分析.情报杂志,2008(9): 33-38.
  [12] 柳佳刚,贺令亚,陈山.基于Web的信息抽取技术现状与发展.福建电脑,2007(7): 48-49.
  [作者简介] 张莉萍,女,1966年生,副研究馆员,硕士,发表论文10余篇,出版专著1部。
其他文献
[摘要] 2010PNC联合会议是太平洋邻里协会顺应图书馆发展趋势以及数字信息资源在现代技术支持下的管理使用所发起的一次国际讨论会议。会议重点探讨数字资源的管理、知识资产的转变、e-learning、数字图书馆的发展等议题,为我国数字图书馆的发展和数字信息的建设提供了值得借鉴的宝贵经验。  [关键词] 数字资源 知识管理 数字图书馆 e-learning    1 前 言    太平洋邻里协会(P
期刊
[摘要] 针对高科技企业的实证研究表明,管理者情绪领导行为能够对员工知识分享产生显著影响。其中,鼓励安慰导向的情绪领导行为能够促进员工知识分享,员工心理资本起到部分中介作用;威严冷峻导向的情绪领导行为能够抑制员工知识分享,员工心理资本起到完全中介作用。因此,管理者需要表现出更多的积极情绪导向行为,充实员工心理资本,优化心理情境,从而促进知识交流和共享。  [关键词] 情绪领导行为 心理资本 知识分
期刊
[摘要] 介绍当前国际国内机构库建设概况以及机构库软件平台的选用情况。在调研的基础上重点介绍国际流行的机构库建设软件平台Dspace和Eprints以及国内建设较完善的机构库所使用的软件平台,并简单分析各种机构库软件平台。[关键词] 机构库 机构库软件平台 Dspace Eprints 国内机构库软件平台  1 机构库建设概况    随着开放存取运动的开展,机构库应运而生,并在信息社会到来
期刊
[摘要] 张宗祥《〈说郛〉跋》是研究涵芬楼排印本《说郛》的基础文献。《跋》存有油印本、遗稿《铁如意馆随笔》本以及排印本三种版本,虽然屡经更定,却仍存在误笔之处,前辈学人在研究的过程中又产生一些误解。以张宗祥《〈说郛〉跋》为切入点,利用各家图书馆所藏抄本《说郛》,对跋文及前人研究有待商榷之处加以申说和匡正。  [关键词] 张宗祥 说郛 跋 订补 明抄本      张宗祥(1882-1965年
期刊
[摘要] 利用可视化软件CiteSpace Ⅱ对CSSCI数据库中检索到的2 039篇文献的信息进行研究发现:刘则渊、陈劲、李垣等是《科学学研究》的核心著者,浙江大学、清华大学、西安交通大学等是期刊的核心发文单位;OECD、魏江、陈劲等是期刊文献引用较多的作者;“技术创新”、“科技政策”、“知识管理”等是期刊的主要研究热点;在研究热点的知识基础中,傅家骥的《技术创新学》、侯杰泰的《结构方程模型及
期刊
[摘要] 利用可视化软件CiteSpace Ⅱ对CSSCI数据库中检索到的2 260篇文献的信息进行研究发现:叶文虎、曲福田、毛显强等是《中国人口资源与环境》的核心著者,中国科学院、北京大学、南京农业大学等是期刊的核心发文单位;叶文虎、张坤民、胡鞍钢等是期刊文献引用较多的作者;“可持续发展与生态环境建设”、“循环经济与生态环境”、“环境保护与经济增长”等是期刊的主要研究热点;在研究热点的知识基础中
期刊
[摘要] 采用《中文核心期刊要目总览(2008)》“图书馆学、情报学类核心期刊表”中的19种核心期刊的资料数据,利用CNKI的“中国期刊全文数据库”和“中国引文数据库”,统计2005-2009年由公共图书馆系统的作者为第一作者发表的论文数及被引次数等,对各级公共图书馆科研产出及影响力进行分析,并探究其原因。  [关键词] 公共图书馆 科研产出 影响力 学术研究    1 引 言    公共图书馆、
期刊
[摘要] 以网络调查的方式,对我国98所“211工程”高校图书馆的图书超期处理政策进行列表比较分析,指出目前我国高校图书馆超期图书的处理政策单一,对超期罚款政策“一刀切”,内容简单化,罚款金额没有统一标准等问题进行思考。认为高校图书馆要积极探索和实践以其他政策取代超期罚款,用非经济手段促进文献的流通及资源的共享。  [关键词] 图书超期处理政策文献流通    本文采取网络调查的方式,访问了国家教育
期刊
[摘要]根据对设有建筑学专业的有关高校统计及对其使用建筑学导航库的调查分析,从导航库的界面布局、资源组织类型、资源收录数量、检索功能等若干方面进行分析,探寻建筑学网络资源导航库可持续发展的路径。  [关键词]学科导航 网络资源 建筑学    1概述    1.1 概念界定  学科网络资源导航库,是以学科分类系统为基础,以提供重要学术网站和免费学术资源为目的的集中服务的全球网络资源导航数据库[1]。
期刊
[摘要] 基于VMware vSphere技术的虚拟机系统正广泛应用于数字图书馆的发展与建设中。利用虚拟机技术,可以降低硬件投入成本,提高服务器使用效率,更好地消除传统单一物理服务器部署的弊端,从而有效地实现数字图书馆信息化应用系统的高可用性。针对VMware技术在数字图书馆建设的体系构建,从虚拟机系统架构、数字图书馆虚拟机系统的建立、关键技术的应用等方面阐明观点,指出虚拟机备份是一个不可忽略、应
期刊