论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,传统的搜索引擎已经不能满足人们对个性化信息检索服务的需求。对于用户提供的关键字,现有的搜索引擎往往返回成千上万的搜索结果,用户很难从中找到自己真正需要的内容。为了解决这个日益严重的问题,针对专业领域的个性化搜索研究正成为一个越来越热门的课题。 专业网站组成的集合,通常以Web Community的形式存在,并具有Scale-free特性。在一个具有Scale-free特性的网络中,网络节点的“出度-入度数”对应的分布函数及其相关参数几乎不受网络规模的影响,保持很好的稳定性。通过识别相应的Web Community,可以有效地提高从网络获取信息的效率。 文章主要讨论分析一个专业Web Community识别系统的设计和实现过程,通过专业网络蜘蛛从互联网有选择地抓取网页,并对抓取的网页内容进行专业相关性分析,不断将满足条件的网页加入到Web Community中,最终构建一个相对完整的专业Web Community。文章以对搜索引擎的背景和Web Community识别的相关技术介绍开始,分析了现有技术的不足之处,接着对系统实现的关键技术进行了详细地讨论与分析。 对系统设计与实现的讨论主要集中在以下两个章节:专业网络蜘蛛的设计与实现和Web Community识别关键算法研究。第三章描述了专业网络蜘蛛模块的设计实现以及性能优化等问题,讨论分析了其搜索策略的制定。第四章在目前较成熟的Web Community识别技术的基础上,提出了一种网页主题识别算法—WKHR算法(Weighted Keyword Hierarchical Recognition),该算法可以有效提高页面主题判断的准确性,在实际测试中取得了良好的效果。 论文的第五章叙述了系统的具体实现以及系统原型的相关测试分析。 最后,第六章对全文所做的工作做了一个总结,并提出进一步的展望。