对互联网搜索引擎的初步认识

来源 :硅谷 | 被引量 : 0次 | 上传用户:a4205685
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0520039-01
  
  有人说,会搜索才叫会上网,搜索引擎在我们日常生活中的地位已是举足轻重。互联网是一个纷繁浩帙无边无际的海洋,怎样才能从这无穷的宝藏中去伪存真,找到自己所想要找的东西,那这就得仰仗搜索引擎了。下面是笔记在多年的工作、学习过程中形成的对搜索引擎一些初步认识,不妥之处还望指正。
  
  一、搜索引擎基本工作原理
  
  搜索引擎按其工作方式主要可分为两种,一种是全文搜索引擎,另一种是目录索引类搜索引擎。
  (一)全文搜索引擎。全文搜索引擎是名副其实的搜索引擎,是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
  从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如百度、谷歌等;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如腾讯。
  (二)QQ的搜索引擎。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  (三)目录索引。与全文搜索引擎相比,目录索引有许多不同之处。
  首先,全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
  其次,全文搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。此外,在登录全文搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
  最后,全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
  目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
  目前,全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如谷歌就借用Open Directory目录提供分类查询。而像雅虎这些老牌目录索引则通过与谷歌等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网
  易等;而另外一些则默认的是网页搜索,如雅虎。
  
  二、搜索引擎的常用使用技巧
  
  如果会搜索才叫会上网,那么只会搜索也只是停留在上网的初级阶段,要快速、准确地找到自己想要的信息,还需要掌握一定的技巧。
  1.使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用有:AND(和)、OR(或)、NOT(否,有些是ANDNOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确。
  2.使用双引号进行精确查找。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,实现精确搜索,这样得到的结果最少、最精确。例如在搜索引擎的查询框中输入"searchengine",这会比输入searchengine得到更少、更好的结果。如果按上述方法查不到任何结果,可以去掉双引号试试。
  3.使用加减号限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。
  4.有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:Dejanews是专用于USENET的搜索引擎,而Liszt则是针对邮递列表、IRC等的搜索引擎。
  5.根据要求选择查询方法。如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能,如使用雅虎。如果想得到某一方面比较系统的资源信息,可以使用目录一级一级地进行查找。
  6.使用多元搜索引擎。多元搜索引擎是一种只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站,如全能搜索(http://s.k369.com/)就可以同时对多个搜索引擎进行查询。
  7.使用更特定的词汇。比如,不用“服装”,而用“西服”;不用“flower”而用“rose”。但要尽可能删去一些同义词或近义词。
  上面所述技巧只是一些常用、通用的技巧,每个搜索引擎都有各自的特点,也有各自的搜索技巧。掌握它们,就需要我们在日常的应用中不断的积累和总结。
  
  三、搜索引擎技术发展趋势
  
  1.个性化。搜索引擎个性化的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这种搜索行为分析技术是一种正在发展中的很有前途的搜索引擎人机界面技术。
  通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析”(比如“热门关键词”就是这种分析的运用结果)和“个性化搜索”。后者通过积累用户的搜索个性化数据,将使用户的搜索更加精确。
  2.智能化。传统的搜索引擎使用方法是被动搜索,将来也可利用智能代理技术进行主动信息检索。研究智能检索系统已为形势所迫而成为众所关注的焦点。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测并为用户提供有效的答案是这种系统的支柱技术。它使用自动获得的知识进行信息搜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其它方式,提交给用户。
  自然语言搜索能力也是智能化的一个体现,是目前相对易于开发的技术,这会给搜索引擎增加竞争的砝码。
  另外,由于汉语里同义词很多的特性(比如电脑和计算机就是一个同义词),网页检索时要注意这个问题。因此,建立一个同义词词库并应用在关键字搜索中很必要。这也是搜索引擎智能化的一点小小的体现吧。
其他文献
绿色工艺是获得绿色产品的重要环节,其目的是通过选择合理的工艺设备、加工方法等使得产品在制造中能节省资源和能源,实现环境保护和劳动保护.在深入分析产品制造工艺特性的
[摘要]目的:探讨山波苓体外抗肿瘤作用的活性部位。方法:MTT染色法对山波苓五种溶剂提取物体外抗肿瘤活性进行初步的研究。结果:氯仿提取物对乳腺癌细胞(Bre-04)、神经癌细胞(N-04)、肺癌细胞(Lu-04)有较好的抑制生长作用,IC50分别为0.2699mg/ml、0.2634mg/ml、0.4961mg/ml,对肝癌细胞HepG2抑制作用差,IC50为0.9379mg/ml;山波苓石油醚提
本文通过对荣华二采区10
期刊
期刊
[摘要]如何对员工的绩效进行考核,是企业管理者所面临的一个重大问题。传统的绩效考核,需要根据考核方案形成纸质的考核表,组织人员实施,然后由专门的人员进行数据整理录入,统计。效率、灵活性、准确性、保密性、结果展现都存在一定的局限。从某一个绩效考核需求的实例出发,根据考核内容和考核人员关系抽象出计算机模型,然后给出一个绩效考核的系统框架设计方案。对于关键数据,例如横向评价关系和纵向评价内容的权重和具体
按液压机突然失荷的动力过程 ,建立了考虑液压缸动力液体弹性作用的振动控制数学模型 ,并应用系统仿真技术对隔振安装条件下考虑液压缸液体弹性作用、不考虑液压缸液体弹性作
[摘要]建立的代建制项目风险预警系统包含三个部分,分别为风险识别分析、风险预警和风险规避对策;其中,风险识别部分是系统地对风险相关事件进行挖掘与分类的过程;风险预警部分的任务是确定风险预警的指标体系,运用数学方法建立综合评价模型,测算代建制项目的风险风险程度;风险对策部分是对发出预警信号的风险进行分析,找到应对的方法,减少代建制项目的损失。  [关键词]代建制 风险识别 风险预警 风险对策  中图
从素金首饰变革到金镶玉首饰的流行,都离不开产品设计研发的创新,更好的说明与印证了消费观念引导产业升级。中国珠宝首饰行业的发展,从素黄金首饰到铂金首饰、钻石首饰,再到彩宝
出血和血栓是骨髓增生性疾病(MPD)病人常见的并发症,有时同一病人在病程中相继并发这种并发症。作者研究了54例MPD病人和70例正常对照标本。所有受试者在14天内没有服用过阿