论文部分内容阅读
为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.本方法可用于Web查询,也可用于信息集成系统中包装器的构造.