论文部分内容阅读
【摘 要】由于人们在使用以往的搜索引擎搜索时,得到的搜索结果往往并不是用户希望的结果,使得传统的搜索引擎并不能满足用户的要求。所以,要满足用户的搜索要求,就必需采用新的技术和手段改善搜索引擎的性能。本文就目前比较常用的改善搜索引擎的手段和技术做出了浅显的探讨。
【关键词】搜索引擎 优化策略 自动分类 概念检索
伴随着互联网的高速发展,互联网已经渗透到人们生活的各个角落,人们的生活已经离不开互联网,当人们遇到问题时不再是查阅书本,越来越多的人倾向于去互联网寻找答案。有关数据表明,截止到目前,美国Google公司的搜索引擎的索引量已超过41亿。一般来说由于互联网传递的信息数量之大,种类之多,更新速度之快的特点。用户要想从庞杂的信息中找到自己想要的信息实属不易,因此,对搜索引擎进行优化,对信息分类显得很有必要。基于以上问题,有如下措施可以改善,把不同的资源分类,拟定搜索关键词,进而实现智能化搜索,接下来将对以上所提到的改善策略详细说明。
一、网络搜索引擎的性能优化策略和相关技术
就早期的搜索引擎而言,其搜索系统主要由爬行器、索引器、和检索器三部分构成,用户在使用搜索引擎搜索时,搜索结果的准确性往往由以上三部分决定。因此,要想提高搜索引擎的准确性,必须改善爬行器、索引器、和检索器三部分。下文将就如何改善以上三部分做出具体的说明。
(一)权威性
资源的权威性是对资源分类的一个重要参考指标,资源之所以具有权威性是因为其内容和质量长时间内得到了用户的认可,具有相当高的可信度。因此,用户在对资源检索时,必须让这些权威性的资源出现在检索结果前面,让用户一眼就能看见。
同时,判断资源是否具有权威性靠人来判定是不现实的,一方面互联网上资源数量之大,靠人力来评判资源的权威性显然行不通,其次,在评判资源的权威性时,人或多或少的会带有主观性。因此,在评定网络资源的权威性时,建立合理科学的评判标准,让系统自动的评判资源的权威性显得很有必要。由于网络资源的特殊性,实际操作时可以根据资源的来源链接进行分析判断。
(二)关键词
用户在使用搜索引擎搜索答案之前就已经有明确的目标,自己要搜索什么,想得到什么样的搜索结果,所以必须把用户搜索的关键词和有关资源联系起来,并进行判断排序,进而显示在搜索结果里。需要强调的是,这个匹配过程,需要系统在用户搜索过程中迅速收集各种文档,根据有关技术对资源和用户搜索的关键词进行匹配,进而把最优的,符合用户需求的资源排在搜索结果前面。
在对资源和关键词匹配时,比较关键的技术就是自动分类技术。自动分类技术对网络资源分析处理时,主要根据资源的相似性对资源分类,检索式的结果因检索的关键词不同而不同,自动分类技术的好处是用户在输入搜索内容后,得到检索结果之前,搜索引擎就可以快速对用户搜索的关键词和资源进行匹配,重要的是,自动分类技术只对搜索得到的结果进行分类,这样的好处是不仅降低了开发搜索引擎的成本,而且还极大的缩短了搜索时间,提高了搜索的准确率。目前常用的自动分类技术方法有单遍聚类法、逆中心距聚类法。这两种方法有着很大的差别,体现在前者是对资源预先分类,实际操作起来比较复杂,后者操作起来虽然较简单,但由于对资源分类不明确,对资源的关键词匹配没有前者准确。在实际应用时,可根据具体情况来选择不同的分类方法。
(三)个性化
一千个读者有一千个哈姆雷特,同样的问题,由于用户文化水平的参差不齐,对不同的问题有不同的表述方式,因此,在实际检索中即使输入的关键词相同,但不同的用户想得到的搜索结果可能有很大的差别。所以,用户在输入关键词检索时,搜索引擎应该根据用户的不同情况,进而对关键词做出深入的分析,进而匹配用户需要的资源,所以在实际应用中搜索引擎应该具有个性化。
1.用户兴趣模型
要想实现检索的个性化,建立一个适当的模型就很有必要。其中建立模型的关键在于收集用户的检索习惯,对于用户的检索习惯可通过如下两种方法进行收集,首先是给用户选择的权利,让用户选择让他感兴趣的内容。此种方法理论上是非常有效的,但实际操作起来难度特别大。因为实际情况是极少数用户愿意去选择自己感兴趣的内容。其次是根据用户以前的浏览历史和搜索记录来分析用户的喜好,这种搜索方法不需要用户的参与,由系统自动完成,但是对系统的要求比较高,且前提是有一定的用户基数。用户兴趣模型建立之后,当用户搜索时,搜索引擎便通过用户兴趣模型快速对资源匹配,让用户需要的资源显示在搜索结果前面。
2.用户信息反馈
由于用户在检索问题是,对一个问题的描述往往并不准确,但用户发现自己的搜索结果不是自己预期的结果时,往往会对问题重新描述,这个过程通常称为反馈,此时搜索引擎要及时改变资源匹配方法,适应用户的搜索习惯,进而让显示的搜索结果满足用户的需求。当搜索引擎得到用户对搜索结果的反馈后,要迅速重新显示搜索结果,然后再根据用户的反馈,直到得出用户想要的结果。显然用户的反馈是十分重要的,一般而言搜索引擎对用户反馈信息有以下利用方式,首先让用户接下来的搜索结果依赖于用户上一次的反馈信息,显然这是个性化的一种方式,其次让搜索引擎通过用户的反馈信息来改善整个索引结果,进而得到用户想要的搜索结果,这是搜索引擎系统的智能分析方法,同时还对搜索引擎的性能有一定的改善。
(四)专业化
除了以上所述的方法来优化搜索引擎之外,既文档的权威性、用户查询的相关性、个性化。提高搜索引擎的专业化同样可以改善搜索引擎的性能。这里所说的搜索引擎专业化指,当用户检索信息时,搜索引擎只对其中的关键词进行资源匹配,进而建立区别于一般的索引库,即专业索引库。搜索引擎可以根据用户的需求直接在专业索引库里进行索引,这样不仅缩短了检索时间,还提高了检索结果的准确率。值得强调的是,对于专业索引库的建立通常有以下几种方法,首先搜索引擎系统根据用户的搜索习惯建立特定的关键词词典,当然这个专业词词典也可以由人工创造。其次是对网络上的专业资源进行分析,进而自动生成专业词典。然而不论用哪种方法生成专业词典,都必须保证其准确性。
二、优化搜索引擎的其他方法
当然,提高搜索引擎的检索性能远不止上述几种方法,还有别的很多方法,通常有集成方法,这种方法可以综合不同的搜索引擎的搜索结果,本地化方法,这种方法只检索特定领域的信息,与专业化分析方法有几分相似之处,多媒体方法,这种方法让用户可以搜索各种多媒体信息。另外,绝大多数用户在一个特定的时间段内的检索内容不会有太大的改变,基本都集中在一个领域,此时,搜索引擎可以通过浏览器的缓存快速的显示用户的常用搜索结果,提高搜索引擎的准确性。
值得注意的是,在强调搜索引擎的准确性时,还必须注意搜索的速度及用户的体验,实际应用时可以从软硬件两方面着手,首先从硬件方面来说,为了提高信息的处理速度,降低服务器的成本,可以采用集群系统。从软件的方面来说,优化编程代码,进而提高搜索系统的执行效率。
三、结束语
综上所述,目前网络搜索引擎的发展重点是如何改善搜索引擎的性能,提高检索的准确率,提高用户的使用体验。同时本文也提出了几种优化策略,并对相关的实现技术进行了探讨。从搜索引擎的长远发展来看,搜索引擎系统是以硬件为基础的,在实际应用时,不仅要从软件方面改善搜索引擎的性能,还要不断提高硬件配置。总之要想让网络搜索引擎更好地为人们服务,仍需要大家的不断努力。
参考文献:
[1]李晓明 王继民,搜索引擎,科学出版社,2004年
[2]刘奕群 马少平 洪涛,搜索引擎技术基础,清华大学出版社,2010年
【关键词】搜索引擎 优化策略 自动分类 概念检索
伴随着互联网的高速发展,互联网已经渗透到人们生活的各个角落,人们的生活已经离不开互联网,当人们遇到问题时不再是查阅书本,越来越多的人倾向于去互联网寻找答案。有关数据表明,截止到目前,美国Google公司的搜索引擎的索引量已超过41亿。一般来说由于互联网传递的信息数量之大,种类之多,更新速度之快的特点。用户要想从庞杂的信息中找到自己想要的信息实属不易,因此,对搜索引擎进行优化,对信息分类显得很有必要。基于以上问题,有如下措施可以改善,把不同的资源分类,拟定搜索关键词,进而实现智能化搜索,接下来将对以上所提到的改善策略详细说明。
一、网络搜索引擎的性能优化策略和相关技术
就早期的搜索引擎而言,其搜索系统主要由爬行器、索引器、和检索器三部分构成,用户在使用搜索引擎搜索时,搜索结果的准确性往往由以上三部分决定。因此,要想提高搜索引擎的准确性,必须改善爬行器、索引器、和检索器三部分。下文将就如何改善以上三部分做出具体的说明。
(一)权威性
资源的权威性是对资源分类的一个重要参考指标,资源之所以具有权威性是因为其内容和质量长时间内得到了用户的认可,具有相当高的可信度。因此,用户在对资源检索时,必须让这些权威性的资源出现在检索结果前面,让用户一眼就能看见。
同时,判断资源是否具有权威性靠人来判定是不现实的,一方面互联网上资源数量之大,靠人力来评判资源的权威性显然行不通,其次,在评判资源的权威性时,人或多或少的会带有主观性。因此,在评定网络资源的权威性时,建立合理科学的评判标准,让系统自动的评判资源的权威性显得很有必要。由于网络资源的特殊性,实际操作时可以根据资源的来源链接进行分析判断。
(二)关键词
用户在使用搜索引擎搜索答案之前就已经有明确的目标,自己要搜索什么,想得到什么样的搜索结果,所以必须把用户搜索的关键词和有关资源联系起来,并进行判断排序,进而显示在搜索结果里。需要强调的是,这个匹配过程,需要系统在用户搜索过程中迅速收集各种文档,根据有关技术对资源和用户搜索的关键词进行匹配,进而把最优的,符合用户需求的资源排在搜索结果前面。
在对资源和关键词匹配时,比较关键的技术就是自动分类技术。自动分类技术对网络资源分析处理时,主要根据资源的相似性对资源分类,检索式的结果因检索的关键词不同而不同,自动分类技术的好处是用户在输入搜索内容后,得到检索结果之前,搜索引擎就可以快速对用户搜索的关键词和资源进行匹配,重要的是,自动分类技术只对搜索得到的结果进行分类,这样的好处是不仅降低了开发搜索引擎的成本,而且还极大的缩短了搜索时间,提高了搜索的准确率。目前常用的自动分类技术方法有单遍聚类法、逆中心距聚类法。这两种方法有着很大的差别,体现在前者是对资源预先分类,实际操作起来比较复杂,后者操作起来虽然较简单,但由于对资源分类不明确,对资源的关键词匹配没有前者准确。在实际应用时,可根据具体情况来选择不同的分类方法。
(三)个性化
一千个读者有一千个哈姆雷特,同样的问题,由于用户文化水平的参差不齐,对不同的问题有不同的表述方式,因此,在实际检索中即使输入的关键词相同,但不同的用户想得到的搜索结果可能有很大的差别。所以,用户在输入关键词检索时,搜索引擎应该根据用户的不同情况,进而对关键词做出深入的分析,进而匹配用户需要的资源,所以在实际应用中搜索引擎应该具有个性化。
1.用户兴趣模型
要想实现检索的个性化,建立一个适当的模型就很有必要。其中建立模型的关键在于收集用户的检索习惯,对于用户的检索习惯可通过如下两种方法进行收集,首先是给用户选择的权利,让用户选择让他感兴趣的内容。此种方法理论上是非常有效的,但实际操作起来难度特别大。因为实际情况是极少数用户愿意去选择自己感兴趣的内容。其次是根据用户以前的浏览历史和搜索记录来分析用户的喜好,这种搜索方法不需要用户的参与,由系统自动完成,但是对系统的要求比较高,且前提是有一定的用户基数。用户兴趣模型建立之后,当用户搜索时,搜索引擎便通过用户兴趣模型快速对资源匹配,让用户需要的资源显示在搜索结果前面。
2.用户信息反馈
由于用户在检索问题是,对一个问题的描述往往并不准确,但用户发现自己的搜索结果不是自己预期的结果时,往往会对问题重新描述,这个过程通常称为反馈,此时搜索引擎要及时改变资源匹配方法,适应用户的搜索习惯,进而让显示的搜索结果满足用户的需求。当搜索引擎得到用户对搜索结果的反馈后,要迅速重新显示搜索结果,然后再根据用户的反馈,直到得出用户想要的结果。显然用户的反馈是十分重要的,一般而言搜索引擎对用户反馈信息有以下利用方式,首先让用户接下来的搜索结果依赖于用户上一次的反馈信息,显然这是个性化的一种方式,其次让搜索引擎通过用户的反馈信息来改善整个索引结果,进而得到用户想要的搜索结果,这是搜索引擎系统的智能分析方法,同时还对搜索引擎的性能有一定的改善。
(四)专业化
除了以上所述的方法来优化搜索引擎之外,既文档的权威性、用户查询的相关性、个性化。提高搜索引擎的专业化同样可以改善搜索引擎的性能。这里所说的搜索引擎专业化指,当用户检索信息时,搜索引擎只对其中的关键词进行资源匹配,进而建立区别于一般的索引库,即专业索引库。搜索引擎可以根据用户的需求直接在专业索引库里进行索引,这样不仅缩短了检索时间,还提高了检索结果的准确率。值得强调的是,对于专业索引库的建立通常有以下几种方法,首先搜索引擎系统根据用户的搜索习惯建立特定的关键词词典,当然这个专业词词典也可以由人工创造。其次是对网络上的专业资源进行分析,进而自动生成专业词典。然而不论用哪种方法生成专业词典,都必须保证其准确性。
二、优化搜索引擎的其他方法
当然,提高搜索引擎的检索性能远不止上述几种方法,还有别的很多方法,通常有集成方法,这种方法可以综合不同的搜索引擎的搜索结果,本地化方法,这种方法只检索特定领域的信息,与专业化分析方法有几分相似之处,多媒体方法,这种方法让用户可以搜索各种多媒体信息。另外,绝大多数用户在一个特定的时间段内的检索内容不会有太大的改变,基本都集中在一个领域,此时,搜索引擎可以通过浏览器的缓存快速的显示用户的常用搜索结果,提高搜索引擎的准确性。
值得注意的是,在强调搜索引擎的准确性时,还必须注意搜索的速度及用户的体验,实际应用时可以从软硬件两方面着手,首先从硬件方面来说,为了提高信息的处理速度,降低服务器的成本,可以采用集群系统。从软件的方面来说,优化编程代码,进而提高搜索系统的执行效率。
三、结束语
综上所述,目前网络搜索引擎的发展重点是如何改善搜索引擎的性能,提高检索的准确率,提高用户的使用体验。同时本文也提出了几种优化策略,并对相关的实现技术进行了探讨。从搜索引擎的长远发展来看,搜索引擎系统是以硬件为基础的,在实际应用时,不仅要从软件方面改善搜索引擎的性能,还要不断提高硬件配置。总之要想让网络搜索引擎更好地为人们服务,仍需要大家的不断努力。
参考文献:
[1]李晓明 王继民,搜索引擎,科学出版社,2004年
[2]刘奕群 马少平 洪涛,搜索引擎技术基础,清华大学出版社,2010年