论文部分内容阅读
Web数据的组织格式主要以半结构化为主.不像结构化数据,半结构化的数据对于数据查询是十分不易的.该文在信息抽取中引入了Ontology(本体)的技术,提出了一种基于Ontology、能处理语义的Web信息抽取系统.信息抽取技术(Information Extraction,缩写为IE)是一种面向具体任务的实用的文档理解技术.与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题的信息.该技术适用于具有特定主题及相对确定的信息结构的文档如广告、新闻、数据库自然语言查询、特定领域的文告等.