论文部分内容阅读
植物作为一种可持续利用的资源,是国家的重要财富。植物志、植物图鉴等文献中的植物信息为合理开发利用植物资源提供了极为重要的基础信息和科学依据,但是这些信息大都是没有结构的文本文档,不便于进一步研究应用。信息抽取技术致力于从自然语言文本中获取结构化信息,可望有效解决这一问题。本体是对领域知识的共同理解,能有效地解决信息抽取所面临的主要挑战——知识工程的瓶颈问题。本课题主要研究与实现基于本体的植物志、植物图鉴中植物信息的抽取。文章首先对信息抽取及本体的相关知识进行了研究,并对植物学知识工程研究现状和基于本体的信息抽取研究现状进行了分析总结。通过比较分析,选用了自顶向下的技术路线,结合七步法和骨架法手工构建了植物本体,将本体中的概念分为事件概念和扩展概念。通过确定本体的领域范围、获取领域知识、建立本体框架(包括提取事件概念、细化扩展概念、定义概念间的关系及增加具体实例)、形式化本体、评价修改本体及确定本体这一过程构建了一个比较完备的、适合于后续植物信息抽取系统应用的植物本体。本研究设计并实现了植物信息抽取系统,该系统采用了一种基于本体和分类的信息抽取方式。首先对构建好的植物本体进行解析并存入数据库,添加本体中概念等的相关关键字,也存入数据库;接着在文本预处理过程中引入植物本体中的概念、实例,以及关键字等,并对待抽取文本进行规范化、分词、标注;然后根据句子分类规则,将文本中的句子分类,即确定句子的事件类别(句子分类的类别标准来源于植物本体中的事件概念);最后结合已确定的事件类别,选择抽取模板,并依据标注结果直接抽取模板中的待抽取实体。系统中分类规则、抽取规则都用正则表达式表示。测试结果表明本研究建立的植物信息抽取系统有较好的抽取性能。