论文部分内容阅读
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。