论文部分内容阅读
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的、Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的web网站分类层次的准确率较高,实用性较强.