论文部分内容阅读
信息抽取是从各种页面文档集合中抽取出相关信息点数据的过程,是自然语言处理领域很有用的子领域.信息抽取中的难点是确定需要抽取的信息,关键信息的定位,抽取的语义问题,抽取信息的保存和重用。自动信息柚取一般采用黑盒式的抽取模型,难以适应不同用户的抽取要求。本体是一种明确定义的共识,借助本体的语义描述,可以实现不同用户的语义模型,可以解决信息抽取中涉及的语义和保存方面的问题。本文就是在此基础上,提出了由本体驱动,并根据形式化的语义分析来进行信息定位和信息抽取的方法,提出了一个本体驱动环境下的信息抽取模型,并以此实现智能领域的知识获取,从而反过来支持本体的学习以扩大原本的本体知识库。