论文部分内容阅读
随着网络和计算机技术的迅猛发展,文本、图像、音频、视频等各种形式的信息纷纷在网络上发布,网络信息量正以指数规模增长,人类已步入信息爆炸时代。与如此庞大的网络信息量相比,人脑的存储能力显得非常有限。尽管人们能通过专业的训练来减少信息的遗忘率,但效果不明显。人脑存储能力的有限性与网络信息的无限性的冲突导致了“信息过载”现象的产生。人们被庞大的、无序的、结构类型多样的且规模不断扩大的信息海洋所淹没,很难快速、正确地找到所需的信息。
当前的搜索引擎(SE,searchengine)虽然提供了信息检索服务,但自身存在着种种缺陷,例如信息孤岛问题、主题偏向性问题等。这些问题的存在使得查询结果集合庞大,并且其中很多结果与用户的查询意图大相径庭。因此,如何改进搜索引擎技术,提高查全率和查准率是当前智能信息处理领域的科研人员努力为之奋斗的一个目标。本文的主要工作体现在以下三个方面:
第一,分析当前三类搜索引擎的结构特点和系统缺陷,在此基础上提出一种智能型的搜索引擎框架,该框架结合了独立搜索引擎与元搜索引擎的优点,有效地降低了传统搜索引擎的主题偏向性和信息交互规模;
第二,采用多种方法提高系统的智能化程度。首先,从用户兴趣的静态分布和动态演化上阐明什么是用户的真正兴趣并以层次聚类方法为基础提出了用户兴趣模型的构建和调整算法;其次,分析网页中不同tag对特征项的权值的影响,并从中文文法的角度对自动摘要技术进行扩展;最后,以天网的用户日志统计结果为基础提出了一种独立搜索引擎集合的动态调度策略:
第三,对比分析了三种主流网页排序算法,针对PageRank算法权值分配策略的不合理性提出了A—PageRank算法。该算法是一种改进的PageRank算法,它的最大特点是以锚文本集合作为网页主题的替代物,根据网页间的主题相似性成比例地分配源网页的PageRank值。同时,以Heritrix与Lucene为平台对算法的有效性进行了实验与分析。