论文部分内容阅读
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.