桌面搜索引擎的研究与实现

来源 :北京化工大学 | 被引量 : 8次 | 上传用户:dreamyear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索技术的发展,纯粹的web搜索由于受到IE的束缚,因而表现出应用能力偏低,而基于桌面的搜索则相当于一个“客户端+数据库”这样的应用模型,尤其加入了划词搜索的功能,这也使得搜索功能的多样化、个性化成为可能。 针对传统意义上的搜索引擎和新近提出的桌面搜索的概念,本课题提出一整套的搜索引擎从客户端到服务端的实现方案,并予以实现。此方案包括网络蜘蛛、多线程下载器、UNICODE文件存储模块、HTML/XML语法解析器、分词系统、散列二级索引数据库、Web Service、Pagerank(网页排名)、划词搜索。 网络蜘蛛也就是Spider,负责将网络上的各种链接信息,包括普通网页信息、办公资源、图片资料和音乐视频资源和flash动画,网络蜘蛛把它们的URL地址及相关信息(如更新时间、来源网站)存进数据库,并将所有URL的链接情况记录下来,以等待后面的Pagerank模块调用。 多线程下载器将URL下载为文件后,用UNICODE更名机制存到本地硬盘。 HTML/XML语法解析器负责将已经存好的HTML文档解析,剔
其他文献
蚁群优化算法是思想源于自然现象的meta-heuristic算法,经历了十多年的发展已经成为解决很多优化问题的有效工具。最大团问题是经典的NP难的组合优化问题,它不仅在理论上有比
人体运动图像的背景分割是人体运动分析过程中的第一个步骤,是人体运动分析的低级处理部分。该阶段的处理效果直接影响到后续工作的进展,其分割结果对最终的人体运动分析结果
工作流管理系统是定义、创建和管理工作流运行的系统软件。它在企业级应用有着很大的市场,全世界有很多研究机构、软件厂商和大学都对工作流管理系统给予了极大的关注。国内
生长在不同的力学环境下的活体细胞将发生多种不同程度地适应性变化。定量研究细胞和亚细胞结构的运动和形态的动态变化特性,有助于理解力学刺激和细胞生长的关系,也有助于理解
可定向投放是网络广告的一大特点。数字时代的新技术使网络广告的定向投放成为可能:网络广告可以投放给某些特定的目标人群,甚至可以做到一对一的定向投放。数据挖掘作为一种先
目前世界上所有的数据库系统都没有提供故障排除的功能,全是容错概念,鉴于国内外技术现状归根结底都是容错技术,不可避免存在两个问题,一是允许故障共存,无法预防故障的发生,
使用IEEE 802.11协议的无线局域网(Wireless LAN, WLAN)当前已经有了广泛的市场应用,但是由于无线网络开放性的特点和802.11协议自身存在的缺陷,无线局域网的安全性一直受到
通过图形学的方法描述自然界的各类现象一直以来都是计算机图形学研究者所关注的重点,而对动态流体的模拟问题更是其中的难点研究问题。从流体模拟方法的发展进程来看,经典几
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,
Internet的不断发展,网上新闻信息的获取已成为人们知识来源的主要途径。但是,随之而来的“信息爆炸”,使得人们通过搜索引擎或者浏览网页很难从大量的地搜索结果中获取方便的、