浅谈垂直搜索引擎技术的应用

来源 :广东教育·职教版 | 被引量 : 0次 | 上传用户:dswlbwb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文以垂直搜索为主题,介绍搜索引擎的发展及其现状,对比通用搜索引擎和垂直搜索引擎的优缺点,论述了垂直搜索引擎技术及其发展潜力。
  关键词:搜索引擎;通用搜索;垂直搜索
  
  Internet的发展,给人类社会带来了翻天覆地的变化,将人类文明推向一个新的高度的同时,也给人类提供了无限的商机。它的到来,使信息技术成为当今世界各国发展的主题。Internet的普及,网民数量的猛增,web资源的指数增加,都激励着人们探索新的突破。以服务大众出名的通用搜索引擎为我们指引了方向。它们为无数的网民提供了从无底的web中寻找资源的机会。然而,随着Internet的发展,通用搜索引擎有时很难在庞大的信息库中搜索到准确的信息。它的缺陷,给垂直搜索引擎提供发展的空间,以及无限的潜力。垂直搜索的出现,便是对通用搜索引擎的补充,在未来的时间里,它将与通用搜索引擎相辅相成,服务人类的同时,共享新的金矿。
  一、搜索引擎的涵义
  所谓搜索引擎,是指在Internet下,网站根据用户输入的查询条件(关键字),自动从web资源里提取出与用户输入条件相关的信息的一类网站。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而达到信息导航的目的。
  随着Google(谷歌)、baidu(百度)等搜索引擎在Internet上经营的成功,越来越多的IT企业开始进军搜索市场,经过IT精英的不断开拓新领域,创造新价值。搜索引擎从广义上可以将其划分为通用搜索引擎和垂直搜索引擎。
  二、通用搜索引擎与垂直搜索引擎的对比
  随着网络的发展,它一方面让我们更容易获取到信息,另一方面,信息的爆炸发展,也彻头彻尾地使我们陷入了无边无际的信息海洋之中。在海量的信息页面之前,我们想要找到自己需要的信息简直就如“大海捞针”。搜索引擎的横空出世让我们有了探索信息海洋的指南针。
  (1)通用搜索引擎的最大优点是,实现全文搜索,检索到的信息量大,信息覆盖范围广,同时引擎更新信息速度快。目前Internet上搜索引擎可索引到的网页数量已超过110亿页,由于通用搜索引擎搜索范围的广,导致搜索的匹配度低,命中率低,层次结构不清晰,而且重复连接较多,查询结果信息量大,用户很难在海量的链接结果中找到想要的信息。
  (2)垂直搜索引擎是针对某一个特定行业的专业搜索引擎, 是通用搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
  三、垂直搜索引擎的原理及组成
  搜索引擎主要由搜索器、索引器、检索器组成。基本原理和主要功能组件方面,垂直搜索引擎与通用搜索引擎基本相同。两者主要的区别在于Spider爬行范围和网页信息处理深度两方面。通用搜索引擎Spider爬行的范围是面向几乎所有网页,而垂直搜索只爬行跟主题相关的网页。因此,垂直搜索引擎能够比通用搜索引擎更快速地找到相关主题的信息。
  搜索器(Spider):也称网络蜘蛛、网络机器人等,是搜索引擎的灵魂。它根据特定算法负责抓取网页,从抓取到的网页里采集信息,对信息进行分词,分词根据词语的特殊属性选择分词算法,并将信息与其关联的URL保存进服务器数据库。搜索器必须保证及时的发现新网页,定时的重新采集已有网页信息更新保存数据库数据。
  索引器(Indexer):根据搜索器,即网络蜘蛛采集后经过分词等处理后产生的关键字(keyword),建立从关键字到网页URL(统一资源定位器)的关系索引倒排文档,即建立索引数据库。检索器的功能是根据用户输入的查询词,在索引数据库中进行查询词与索引数据库的匹配算法,然后将查询结果按相关程度排序并输出到浏览器上。
  除了考虑核心的技术以及采用高效的算法外,必须在用户体验上下功夫如结构化的显示搜索到的结果。比如,Google所使用的Ajax(异步JavaScript)技术,用户输入查询时能够自动提示,还有Google查询后显示的数据,界面上字体等要比Baidu细致一个档次。这些细节的原因,某种程度关系到搜索引擎在市场的占有额。
  四、垂直搜索引擎的相关技术
  1.页面解析与页面显示排序。
  网页地址都是用URL(Uniform Resource Locator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对JavaScript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。
  页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。
  2.数据存储及分布式技术。
  尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,也可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。
  3.网络蜘蛛的爬行策略。
  网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略;(2)深度优先搜索策略;(3)广度优先搜索策略;(4)深度-广度结合搜索策略。
  4.中文分词技术。
  在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。
  分词的方法很多,基本上分为两类:第一类是基于字符串的匹配,将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法,从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词。实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点。
  五、垂直搜索引擎的发展空间
  “确解用户之意,切返用户之需” “用户无法描述道他要找什么,除非让他看到想找的东西”,这是消费者(网络使用者)对搜索引擎提出的更高要求。以尽可能多地收集到与专业相关的信息为主要目标的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加贴切消费者的要求。专业化的集中特定领域的垂直搜索引擎有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。市场需求的多元化,决定着搜索引擎服务的多元化;通用搜索引擎开拓市场上的成功,为垂直搜索引擎的市场战略提供了宝贵的借鉴经验,垂直搜索引擎的特点,决定着它在Internet上占有一席之地,必将成为搜索行业的一大力量。
  (作者单位:广州市机电高级技工学校)
  
  参考文献:
  [1]王晓伟. 垂直搜索引擎若干关键技术的研究[J].浙江大学学报,2007,(5).
  [2]孙卫喜.搜索引擎分析[J].高校实验室工作研究,2007,(3).
  [3]李副铭.垂直搜索引擎的研究与设计[D].电子科技大学学报,2009,(9).
  [4]刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报,2006,(9).
  [5]邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,(12).
  责任编辑 朱守锂
其他文献
针对高速磁悬浮列车使用的长定子直线同步电机的高性能牵引控制,提出了一种双端供电下的牵引控制策略,包含位置环、速度环、电流环的控制方法,并且重点分析了电缆长度和信号
随着中越两国政治、经济关系的不断发展,双方各层次的交流日益频繁,相互间的交流必须通过语言才能达到沟通的目的。不同语言之间的接触必将产生语言交叉现象,尤其是在语音方面。
一、广西和越南都具有相当丰富的旅游资源广西地处祖国的南疆,背靠大西南,面向东南亚,具有沿海、沿边的区位优势,成为中国与东盟各国交往的重要门户.广西境内山清水秀,旅游资
通过分析目前铁路货运存在的问题,从铁路机制、运价体系、服务质量及营销形式方面提出了建立铁路货运营销的设想。
紫光A850扫描仪看上去第一眼的感觉就是筒简单单.整个扫描仪上只有操作面板上5个触摸式按键.蓝色的半透明掀盖和白色的机身想搭配虽然没有什么豪华的气派,但是也毫不失时尚而且
本文结合电子商务专业教学改革实践,分析中职电子商务专业课程设置的现状和存在的问题,并从电子商务人才的社会需求、培养目标、课程设置和教学模式等方面,就电子商务专业课程设
我院于2007年9月开展了临床路径工作,对于子宫瘤等5个病种的临床路径在各临床科室正式实施,随后至2009年底病种扩增至26个。2010年1月,我院被卫生部确定为临床路径管理试点医
2009年,我省职业教育取得了跨越式的发展,在办学规模、基地建设、办学模式和办学质量等方面均取得显著成效,广东已成为全国数一数二的职业教育大省。职业教育的办学规模上来了,但
新中国成立60年来,我国中医药事业虽然经历了挫折与挑战,但在党和政府的亲切关怀和正确领导下,取得了长足的发展和辉煌的成就,在继承、创新中得到稳步发展。名医、名院不断涌现,科
提出了有关室外高空吊装设备,特别是桥、门式起重机在防大风报警、控制方面的一套方法及具体实现过程。主张以风向的变化和风力的强弱共同组成报警、控制要素。同时,在如何实现