论文部分内容阅读
随着blog在全世界的流行,面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全面的讨论blog的搜集系统的设计,特别是在垂直搜索引擎的大框架下。
本文的工作就是分析和设计blog垂直搜索引擎的搜集系统。主要贡献包括下面几点。
1.设计了blog垂直搜索引擎的系统架构。本文针对垂直搜索引擎和通用搜索引擎的区别,对blog垂直搜索引擎的搜集、索引和服务子系统作了分析,并给出了系统架构图。
2.分析了blog垂直搜索引擎搜集系统设计要点。本文给出典型搜集系统的架构,讨论搜集系统普遍遇到的问题。然后具体针对blog垂直搜索引擎,分析它的搜集系统需要考虑的一些特殊问题,包括搜集策略的问题,JavaScript的问题,虚拟主机的问题等等。
3.详细讨论了blog搜索引擎搜集系统的设计和工作流程。我们设计了搜集系统的系统架构;提出用focused搜集策略搜集blog站点;利用站点的URL模式来识别blog;针对blog站点的特点,设计高效的DNS解析系统;分析blog搜集中的友好性设计面临的问题,并给出详细的frontier模块的设计;分析post搜集的两种方案,并给出post搜集的系统架构。
4.对搜集到的百万blog数据作了简单的分析。我们讨论了blog站点中存在的链接局部性、blog分布不均衡等4点特性,并评估它们对搜集系统的影响,尤其针对AJAX带来的影响,给出了blog搜集的一些具体的改进方案。