论文部分内容阅读
搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述自己的信息需求。对于一个查询词,搜索引擎往往会返回成千上万的网页,这些结果是动态而简单的,但绝大部分对于某个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找到自己需要的信息。于是,信息检索中出现了“信息过载”和“信息迷失”等问题。如何提高搜索引擎的查准率是其亟待解决的问题,而如何推断用户的查询目的从而实现智能化搜索是未来搜索引擎的发展方向。此外,查询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。就目前而言,对于特定的关键词查询,无论任何人得到的结果都是一样的。人们越来越希望得到的结果能够符合自己的意愿,目前出现了各种改进的搜索引擎,基于用户个性词典的搜索引擎、基于聚类技术的搜索引擎、面向主题的搜索引擎等等。在一定程度上起到一定的促进作用,究其原理,实际就是基于某种技术对通用搜索引擎搜索结果的处理,其中包括对搜索结果的过滤、聚类、分类等处理。实例学习是机器学习中较为成熟的分支,其基本思想是从某一概念的已给的正例集合和反例集合中归纳产生出描述所有正例并排除所有反例的一般规则,因而也被称作概念获取。本文正是基于对用户行为的跟踪,把其访问网页分为正例和反例,通过相关算法,得到描述用户查询目的规则,从而实现网页的过滤技术,返回与用户查询目的相关的网页,去除无关网页。从而有效的提高搜索引擎的查找精度,为用户提供高质量的、相关度较高的查询结果。本文在分析了通用搜索引擎和个性化搜索引擎的基础上,针对目前搜索引擎中的“信息过载”和“信息迷失”等问题,提出一种对搜索引擎进行改进的策略,该策略基于对用户行为的跟踪,对网页返回目录中的摘要信息进行文本挖掘,推断用户的搜索目的,对中文Web搜索结果进行优化。去除垃圾信息,返回给用户一个比较满意的结果。最后初步实现了一个简单的搜索引擎优化系统SEO,系统经过测试取得良好的运行效果。