论文部分内容阅读
如今,Web 成为了网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web 页面的无结构性、超链接的自由无序、以及Web 内容的海量性、多样性和动态变化,人们从Web 上搜索真正想要的信息其实并不容易。从长远看,解决上述矛盾的根本方法就是变无序数据为有序知识,让计算机能够理解Web 信息,同时理解使用这些信息的人。Web 创始人Tim Berners-Lee于1998 年提出了Semantic Web(语义Web,或语义网)的构想,它是当前Web的扩展,其中的信息被赋予定义良好的含义,使计算机可以理解,从而和人更好的协作。为了将目前无序的Web 改造成有序的计算机可理解的知识宝库,语义Web采用多层次的表示框架,ontology 位于从文档描述到知识推理转折的层次,因此ontology 的构建是实现语义Web 的关键环节。 ontology 就是用来描述某个领域(领域ontology)甚至更广范围(通用ontology)内的概念以及概念之间的联系,使得这些概念和联系在共享的范围内有着明确唯一的定义,达成一种共识,这样人和机器之间就可以进行交流。将ontology 和信息抽取技术相结合,基于ontology 的信息抽取最大的优点是抽取对Web 页面的结构没有依赖性。利用ontology 来描述和表达信息抽取的知识库,增强抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。基于ontology 的抽取方法能将单词映射为概念实体,更加准确地体现文字的真实语义,同时通过ontology 的类继承关系可以体现单词与单词之间天然的联系,使原来基于关键字的信息抽取的功能大大增强。本文将基于ontology 的信息抽取技术应用于股票信息抽取。建立起股票ontology,利用领域ontology 中的概念、关系、关键字自动生成抽取规则,在对文章进行预处理后,利用生成的抽取规则对文章进行抽取,最后把结果存入数据库中,为用户提供查询和统计功能。本文首先介绍了信息抽取技术及其产生背景和发展历史。接着对语义Web和ontology 理论进行了较为全面和完整的介绍。在对从事研究所涉及的技术背景进行阐述后,第四章详细介绍了本项目基于ontology 的股票信息系统的框架结构和各部分的功能,并给出了一个实际抽取的例子。