论文部分内容阅读
作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。本文针对现有基于链接结构的相关性算法PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法。理论分析和实验表明,相对于传统的信息采集策略,改进的策略在准确率和召回率方面具有明显的优势。