论文部分内容阅读
本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标.本文还介绍了ontology的基本知识.在此基础上,本文提出了一种基于ontology的信息抽取新方法.在本方法中,我们把信息抽取和ontology结合起来,先利用领域ontology里的概念、关系、关键字等自动生成抽取规则(Rule),然后对文章,句子进行语法分析预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取,最后把抽取的结果以记录的形式输出.在本文中,我们根据上述方法并结合工程实际情况,设计了一个基于ontology的信息抽取系统并编写代码实现了这个系统.因此在本文中,我们详细介绍了系统的总体框架,系统的各主要模块的设计等.由于本系统是根据规则进行信息抽取的,所以本文还着重说明了两种信息抽取规则,JAPE和Lex,介绍了它们的语法、抽取信息的方法以及自动产生抽取规则的算法等.我们还详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等.最后介绍了此系统的运行界面及利用此系统对一些样本进行抽取后的结果并对结果进行了分析.