【摘 要】
:
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作用。传统的搜索引擎大都是基于HTML的搜索引
论文部分内容阅读
当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作用。传统的搜索引擎大都是基于HTML的搜索引擎,HTML重显示而非内容的特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率函待提高。现在,一种可扩展标记语言XML开始慢慢发展起来,越来越多的文档开始用XML语言来描述、存储和交换。XML的标记含义丰富、意义明确,能明白的提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确定位、找到目标,从而大大减小搜索范围,提高检索精度。在这种发展背景下,本文对基于XML的搜索引擎进行了研究。 首先,本文对比介绍了XML语言与HTML语言以及搜索引擎的工作原理和相关的几项技术,说明XML语言为什么和搜索引擎结合可以提高查准率的原因,并针对中文搜索引擎中的传统中文分词方法作了一些改进。 接着,本文设计了基于XML的搜索引擎的模型,介绍了模型的设计思想及大体框架。模型包括机器人模块、转换模块、解析模块、索引模块和查询模块这几部分。本文详细描述了各个模块的结构和实现思想。 最后,本文重点介绍基于XML的搜索引擎的解析索引模块。针对XML文档的特点,本文设计的解析索引模块包括解析器和索引器两部分,其中解析器用来解析XML文档,索引器用来为XML文档建立索引。文章对XML文档的结构和内容都建立了索引,并对索引的实现方法进行了详细论述。
其他文献
随着因特网的迅猛发展,网络对一个国家的信息化和经济发展起到越来越重要的作用,然而也正是因为这样,网络成为黑客攻击首当其冲的目标;另一方面,现有的安全产品多重视外部入
P2P网络是近年来计算机领域研究与关注的一个焦点,它在很多领域都得到了应用,未来发展空间很大。但是,P2P网络发展过程中,也产生了一系列急需研究和解决的问题,安全就是其中
近年来,通信网和计算机网络不断飞速发展,给全世界的人们带来了极大的方便。同时,网络自身也变得越来越庞大复杂,对网络的管理与控制已经成为网络研究建设的重要内容之一。In
随着信息技术的飞速发展,数据爆炸和知识贫乏之间的矛盾越来越大,使数据挖掘在许多领域所起的作用越来越重要。在数据挖掘的各分支中,关联规则挖掘的研究最为深入和广泛。目前对
随着Lotus Domino群件系统的普遍应用,Domino系统的规模不断扩大,基于Domino的关键应用也不断增多。Domino系统的可用性和可扩展性就成了许多用户关注的问题。针对这些方面的
随着互联网技术和多媒体技术的快速发展,作为多媒体数据源之一的图像的资源量剧增,并且深刻影响着人们生产生活的各个领域,因此,如何高效地获取和使用图像信息,成为了当前学术界和
本文结合自行研制的新型短波监测设备,对短波传播理论、无线电测向技术、数字信号处理理论和软件无线电理论等进行了深入研究,并将其应用于设备中。首先,对无线电测向理论进
本文以企业银行住房公积金信息系统开发为例,阐述了利用基于MVC模式的Struts框架实现B/S应用系统的技术要点。 文中首先在充分分析了公积金缴存系统的用户需求之后,给出了基
本文以基因表达数据为研究对象。由于基因表达数据存在局部相似和时间延迟的特点,直接应用传统的相似度计算方法难以准确发现表达相似的基因。本文中,我们试图通过计算满足一定
随着信息社会的发展,越来越多的信息被数字化,尤其是伴随着Internet的发展,数字化的信息呈爆炸式增长。因而在未来几年里,如何存储和管理这些数据将成为人们关注的焦点。七、