论文部分内容阅读
结构化的论坛网站多采用动态网页生成技术,将后台数据库的记录信息加入HTML模板,以动态地显示在网页上。与此过程对称,本文首先将不同BBS网站的大量网页解析为Tag-Tree,然后计算树的相似度与构建代价生成多类Tag-Tree模板,同时得到每个模板所对应的网页,寻找模板的重复模式确定记录边界。最后,利用模板解析相应网页得到非模板内容,进而采用启发式规则提取结构信息与记录内容。