中文搜索引擎的初步探索

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:Z_L_Q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着因特网的迅猛发展、WEB信息的增加,人们越来越依靠网络来查找他们所需要的信息。用户要在如此浩瀚的信息海洋里查找信息,就象大海捞针一样,所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎随之诞生。在分析当前搜索引擎的种类和现状的基础上,我们完成了一个轻量级的全文搜索引擎系统。
  [关键词]搜索引擎 WEB信息
  中图分类号:TP3934;G354 文献标识码:B 文章编号:1009-914X(2015)29-0312-02
  1 引言
  搜索引擎是互联网发展非常迅速的一个领域,Larry Page 和 Sergey Brin 在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎并在1998年成立Google公司。这是搜索引擎首次出现在大家面前,公司刚成立每天就要处理大约10000次用户搜索。在短短的十几年间,搜索领域已是百花齐放。百度,雅虎,SoSo等等一大批搜索引擎如雨后春笋般涌现出来。
  搜索引擎是现在乃至以后互联网应用的热点之一。如今生活节奏加快,人们都希望快速,准确的寻找到自己想要的信息。有问题,问百度已经是大家经常挂在嘴边的口头禅,由此可见搜索引擎已经深入到人们的生活当中。并且,我们可以合理的推测出搜索引擎将会进一步影响人们的生活,它将会变的更加智能结果更加合理。作为一个软件工程专业的学生,我们有必要了解这个前沿技术。搜索引擎由众多子系统组成,我们在这里只讨论其中一个子系统:网络蜘蛛。
  网络蜘蛛是搜索引擎的一个重要组成部分,它负责将互联网上网页信息通过一定的策略搜集起来,作为一个原始网页库供其他子系统调用处理。这个部分是搜索引擎的第一步,也是比较简单的一步,非常适合本科应届毕业生对它进行研究处理。
  2 课题研究的可行性
  目前已经有非常多的人通过搜索引擎来搜索自己想要的东西,但是对于搜索出来的结果他们通常只知其然,不知其所以然。而搜索技术又是互联网上竞争和发展最激烈,最迅速的一个方向,我们有必要了解从输入一个关键字给搜索引擎到搜索引擎反馈给我们结果这个过程中搜索引擎到底做了些什么。
  本文只讨论网络蜘蛛,也就是网页收集模块。这个模块是整个搜索引擎中比较重要的模块,它将网络上的资源收集起来,按照一定的规则提供给其他模块使用。我们只需使用一些简单的技术就可实现基本的网络蜘蛛。
  现在已经有一些开源的搜索引擎可以供我们参考,从这些开源的搜索引擎中我们可以窥见搜索引擎的一些秘密。这些开源的搜索引擎可以给我们提供一些指导思想,在技术细节上也可以提供参考。
  3 系统的功能需求
  一个搜索引擎至少应有3个子模块。
  搜索器,也就是网络蜘蛛。搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。
  索引器,索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
  用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
  3 系统总体架构设计
  系统总体结构设计的任务,是根据系统分析的逻辑模型设计应用软件系统的物理结构。系统物理模型必须符合逻辑模型,能够完成逻辑模型所规定的信息处理功能,这是物理设计的基本要求。
  下面是搜索引擎的系统层次图:
  系统功能模块的划分,是在需求分析基础上进行的,是把具有复杂功能的系统通过设计分解为具有基本独立,功能简单,易于实现等特点的多个功能模块。模块划分的好处是,由于组成系统的模块基本独立,功能明确,因此便于模块的单独开发、维护和修改,而不会影响系统中的其他模块。
  模块的划分应该遵循低藕合,高聚合的划分原则。藕合的高低表示模块之间联系程度的强弱。聚合表示一个模块内部组成之间的联系程度。低藕合(也称为松散藕合)就表示模块之间联系程度弱,反之,则联系程度强。藕合度越低,说明模块之间的联系越弱,则相互间产生影响和连锁反应的概率就越小。也就是说当某个模块出现故障或者需要修改和维护时,对系统其他模块产生的影响小。该原则有助于提高系统的可维护性和可扩展性。
  通过对搜索引擎系统需求的分析,系统划分成以下几个模块。搜集模块,索引模块,检索模块,用户接口模块。我主要负责搜集模块的实现。
  4 系统用例图设计
  搜索引擎是给大家搜索信息使用的,用户需要做的只是输入想要的查询词剩下的工作就全交给搜索引擎来处理。
  用户用例图
  搜索引擎在外部用户看来,就是一个页面,一个输入框。外部用户能够直接参与的也就只是在输入框中输入查询词,等待系统返回查询结果。
  系统管理员用例图
  启动蜘蛛程序用例图:系统管理员运行蜘蛛程序,让它在网络上爬取网页。
  建立索引用例图:将通过蜘蛛程序爬取回来的网页,用一种索引算法给每个网页建立索引,方便检索模块查询。
  参考文献
  [1] 王希瑶.浅析搜索引擎技术及技巧[J].电脑知识与技术,2005,(21).
  [2] 彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报, 2005,(02).
  [3] 黄强.搜索引擎技术研究[J].计算机与现代化,2004,(11).
其他文献
[摘 要]随着人们生活水平的提高,人们对自己的饮食也渐渐的注重起来,很多人在进行紧张工作之余会选择享受美食进行放松,但传统电话订餐模式费时且低效。开发出图文并茂,信息能够及时更新和查看的在线网上订餐系统就成为了解决上述问题的主要途径,研究这样的一款网上订餐系统就具有了重要的意义。  [关键词]在线订座系统;餐饮  中图分类号:TP311 文献标识码:B 文章编号:1009-914X(2015)29
期刊
[摘 要]随着世界经济和科技的不断发展,商务发展模式逐渐朝着电子商务的趋势发展。跨境电子商务是进行各国之间交流和贸易的主要途径。在经济全球化的背景下,要想提升本国企业的综合实力,在市场竞争中占据优势地位,就应该依靠电子商务。尤其是一些外贸企业,在跨境电子商务运行的过程中,要找到自身的优势之所在,抢占先机。但是,从现如今外贸企业跨境电子商务发展的过程中可以看出,虽然取得了一定的成效,但是仍然存在着严
期刊
[摘 要]随着互联网的普及,网络招聘已经成为企业,机构或其他单位不可或缺的行为。通过网络,公司可以随时发布空缺的职位,同时求职者也可及时了解到这些信息,在线申请职位。阐述了网络招聘系统的分析与设计的过程。  [关键词]网络招聘系统;求职  中图分类号:TP311.52 文献标识码:A 文章编号:1009-914X(2015)29-0303-01  1 选题背景  时至今日,相信“网申”这个词对于已
期刊
[摘 要]2随着时代的变化,特别是信息经济越来越深入人心、深入企业运作的今天,以往许多企业经营的方式都重新改写了。以Internet为主要服务手段实现公众消费和提供服务的B2C(Business-to-Consumer)电子商务出现在人们眼前,而今Shopping Online变成了当今最火爆,最适合上班族,年轻族群购物口味的一种购物方式。各大购物网站如雨后春笋般出现,渴望来分这一杯羹。网上鞋店很
期刊
[摘 要]中国作为动漫产业的后来者,正在加速产业规划和发展进程。一系列政策法规的出台和国资背景的中国动漫集团的成立,标志着中国动漫产业进入民营和国资“共舞”的时代。但其受众面却占中国人口的很少一部分,因此在这个Internet这个最大的信息平台建立一个专业的动漫游戏ACG网站是必须的。  [关键词]ACG;动漫  中图分类号:GO 文献标识码:A 文章编号:1009-914X(2015)29-03
期刊
[摘 要]随着计算机技术的不断发展和完善,Internet应用的不断普及,网络购物这种生活方式已悄然形成,只要轻轻的点点鼠标,通过浏览器实现网上交易。本文主要针对玩具网上商城进行分析设计。  [关键词]玩具网上商城、Internet  中图分类号:TS958 文献标识码:B 文章编号:1009-914X(2015)29-0306-01  1 选题背景  在网络飞速发展的时代,随着网络购物为人们所熟
期刊
[摘 要]进入二十一世纪,计算机技术迅速向着网络化、集成化方向发展。人们渐渐开始把网站称之为广播、电视、报刊以外的第四新闻媒体,以“共享、公平、公正、创新、国际化、团队精神”为特征的网络文明也已逐渐成为这个时代的标志,人们越来越习惯于通过Internet网络获取信息,通过Internet在网站上发表自己对社会对生活的理解和建议。本文主要工作是对爱吧论坛系统进行需求分析与设计。  [关键词]爱吧论坛
期刊
[摘 要]随着网吧业经营竞争日趋激烈,对网吧的管理提出了更高的要求。使用计算机和互联网的技术,开发网吧计费系统,不仅可以提高网吧管理的效率,而且还可以实现降低运营成本和资源共享。  [关键词]网吧计费系统;资源共享  中图分类号:TP:140 文献标识码:A 文章编号:1009-914X(2015)29-0299-01  1 选题背景  随着中国网吧业蓬勃的发展,竞争越来越激烈,网吧需要一个完善的
期刊
[摘 要]本文利用当前软件设计中通用的软件设计思想—软件工程,在系统的实现过程中,主要分为客户端和服务器端两部分内容,对聊天软件做出了具体的分析设计。  [关键词]聊天软件;软件工程  中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)29-0307-01  1 引言  随着网络的发展,邮件 E-mail 是最先出现的一种通讯工具,它不但可以传送文本,还可以传递多媒体
期刊
[摘 要]非诉行政执行案件的审查与执行系两类不同的案件处理思路,审查意味着半诉讼审理模式,而执行代表着强制处理的方式。近年来,非诉行政案件数量的大幅度增长,从另一个侧面反映着官民矛盾在各类领域隐性地存在着,如何灵活处理与把握各类案件的审查与执行,是我们当前需要慎重考量的,尤其是在党的十八届四中全会提出建设法治中国的大背景下急需解决的重要问题。本文结合某基层法院近五年来非诉行政执行案件的主要情况以及
期刊