论文部分内容阅读
作为巨大的信息源,在某种意义上WWW可视为一种大型数据库。然而,它与传统数据库存在本质的不同,基主要特点是信息结构的松散性,即数据的不规则性,或者说无法遵循某种严格定义的模式。通常,研究人员称WWW上的这种数据为半结构化数据。因而WWW也可看作一个由半结构化数据(或对象)集合构成的数据模型,该文介绍了如何将WWW网页中的有用信息提取出来,并以CEM为数据模型将其组织存储的方法,以及在这种存储模型上对半结构化数据的查询方法。