论文部分内容阅读
文章讨论了Web挖掘的一些基本概念,针对Web数据的特点提出了一个基于Web挖掘的信息抽取系统的结构模型。模型通过对XML文档的解析生成DOM树,在此基础上,通过对样本页的DOM树的先序遍历生成抽取规则,再以此规则对Web页进行数据抽取,所抽取的数据保存在数据库中,以便利用数据库技术进一步利用这些数据。