论文部分内容阅读
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题, 采取对待访问链接内容进行词向量聚类的方式, 利用余弦距离表示与扩充主题词的相关性, 改进了算法中对邻近链接评分的机制.实验结果表明, 利用改进后的新算法在限定时间内能够发现更多主题相关的链接, 有效提高了主题爬虫的效率.