论文部分内容阅读
全文检索技术是信息处理的各领域中的重要技术。本文对全文检索技术进行了以下几方面的研究: 1、介绍了国内外检索技术的发展过程,讨论了普通文本检索、概念信息检索、超文本信息检索、多媒体信息检索、数据挖掘等的技术特点。 2、研究了全文检索技术的两种主要索引方法的特点和实现过程。其中基于字表的检索方法由于具有无需分词、实现容易的优点,因而在实践中被广泛采用。然后针对该算法存在的“索引库较大、匹配速度不高和查全率较高而查准率较低”等缺点,引入了第二种检索方法:基于词表的检索方法。 3、研究了中文自动分词技术,这是中文全文检索钟的关键技术。对其中的几种方法,如机械匹配法(即MM法)、特征词库法、约束矩阵法、语法分析法和理解切分法等做了详细的比较和分析,并归纳出各自特点。其中MM法由于实现简单,并且是其它方法的基础,本文对其进行了着重介绍。 4、在MM方法的基础上,本文对一种利用基于字、词和词组的混合模型来实现中文全文检索的方法进行了探索和研究。该算法的基本原理是:把所有的单字、词还是词组都作为语词,建立汉语词语二叉树。分词时,读取二叉树右边的内容,并比较左节点的长度,得到有意义的最小长度的语词。然后又在这种算法的基础上进一步讨论了一种改进的MM法以减少词语的歧义切分。 5、设计了校园网内Web页面的搜索引擎,该引擎的主要特点是:将搜索引擎主要分为前端和后端,后端获取Web文档,然后分词,建立和更新索引;前端提取索引库中的内容,向客户提供检索服务。在该系统中利用网络蜘蛛,扫描校园网中所有HTML文档,寻找所有与检索关键字相关的页面。并将向量空间的思想运用到其中,即可提取出其中的资源中心,即检索结果。