论文部分内容阅读
当前搜索引擎面临着Internet网络信息更新快,用户查询结果要求越来越精确的严重挑战,智能搜索引擎的研究已经成为Web数据挖掘领域研究的重要内容。为了解决搜索引擎中用户查询结果诸多问题,如信息查询的不准确等,发展了目录搜索引擎、全文搜索引擎和元搜索引擎,在这些Internet信息搜索理论、技术、方法上,人们开始引入人工智能。本文综合现有搜索引擎的成果,将人对图书资料检索的智能行为应用到搜索引擎中,进行了如下内容的研究: 1.分析了人们在图书馆查阅资料的智能行为包括:记忆能力、理解能力、感知能力、推理能力、实践能力。分析了图书资料查阅与Internet中信息检索的相似性。系统地分析和总结了现在全文搜索引擎实现方式上的五种智能能力的表现,提出了三网智能行为模型(Outernet(外网)→Internet(万维网)→Innernet(内网)),阐述了实现该模型的关键问题,通过一个具体的应用实例,说明了三网智能行为模型的实现是可行的。 2.从网页和用户查询关键词的“概念与意义”匹配的角度,借助了形式概念分析这一工具对网页的形式概念表示、关联规则的获取、网页匹配中的不确定性推理三个方面进行了研究: (1)在定义用户查询词的下接近与上接近的基本概念基础上,研究了下接近网页集形成的多值形式背景的形式概念表示方法,该方法以单个属性等价类为出发点,采用概念格形式概念对象之间的相等、包含、相交关系,建立了形成概念格的算法。与现有概念格建立算法相比,其时间复杂度有了较大的降低。 (2)结合用户查询词与网页匹配的特点,把现有概念格上的关联规则扩充为“与规则”和“或规则”,研究了从概念格中获取这两种关联规则的方法、算法。同现有概念格上无冗余规则获取算法相比,其时间复杂度有了显著的下降。 (3)从形式概念分析的角度出发,研究了利用关联规则,对上接近网页集中的网页与用户查询词进行不确定性匹配的模型、方法、算法,其算法复杂度是比较低的。 3.使用线性归结方法研究了英文网页的词法分析,认为归结过程本身就是一个线性归结,得出非正规文法都可以转换为正规文法的结论,并给出了转换算法;在正规文法的基础上研究了一个基于线性归结的词法分析方法的原理,证明了该方法的完备性,并予以算法和程序的实现。