论文部分内容阅读
随着计算机和网络技术日新月异地发展,信息技术已经渗透到世界的各个角落,各行各业纷纷采用信息技术发展的新成果以促进生产效率的提高。信息资源是现代社会经济发展的重要支柱,有效地获取信息资源将成为推动社会进步和企业发展的重要力量。信息检索技术能帮助人们从浩瀚的数据中抽取出对用户有用的信息,能极大的节省用户的查询时间。
传统信息检索技术依靠基于关键字的语法匹配和全文检索技术,主要借助于目录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易实现,但因其所采用的只是基于语法层面上字、词的简单匹配,而缺乏对知识的表示、处理和理解等能力,故而造成了检索结果针对性不强且量大,难以满足用户的需要。解决这些问题的关键在于把信息检索从基于关键字的语法匹配提升至基于知识层面的语义匹配,从而提高信息检索的质量和查询的准确率。
语义检索是把信息检索与人工智能技术、自然语言技术相结合的检索,它从语义理解的角度分析信息对象与检索者的检索请求,是一种基于概念及其相关关系的检索匹配机制。本体论是关于用计算机语言规范知识概念表示、进行知识组织、开展知识服务的科学方法论。本体论为语义提供了可共享、概念化的知识体系,它是语义检索中实现知识理解和推理的基础。
本文针对基于本体的语义检索中涉及到的本体构建、本体存储、自动标引和语义检索策略等问题进行了比较详细地论述,并给出了解决方案。论文的主要内容包括以下四部分:
首先,介绍了传统的信息检索技术与语义检索技术,分析了传统的信息检索技术存在的不足,在介绍语义检索技术时,着重介绍了目前国内外普遍认同的两种语义检索技术,即潜在语义检索和基于本体的语义检索技术,并介绍了本体论的相关概念,分析了本体论作为语义信息系统的基础作用。
接着,讨论了本体的构建与存储技术。针对本体的构建,总结了本体构建的准则;就目前常用的本体构建的语言及工具进行了介绍;分析和比较了现有的几种主要的本体构建方法,并在此基础之上,提出了基于面向对象思想的本体构建方法。针对本体的存储技术,按存储介质的不同分析比较了三种本体存储管理系统;结合基于面向对象思想的本体构建方法,提出了将本体库存储于面向对象数据库的设想;为保证本体库能够存储于面向对象数据库中又不失本体的原有特性,提出了基于概念场景的动态数据模型。
随后,提出基于领域本体和遗传算法的自动标引方法,并给出了语义检索的检索策略。基于领域本体和遗传算法的自动标引方法采用了基于领域本体的自动标引方法,通过分词及语义推理扩充修正,以获得较为准确和规范的候选标引词;并结合遗传算法在求解优化组合问题方法的优势,对标引源权重分配进行优化,以获得较为精确的计算候选标引词权重的方法。通过此方法获得的最终标引词与样本中人工标引的结果匹配度较高,具有较高的实用性。通过此方法进行标引的文档可以成为实现基于领域本体的语义检索的基础。
语义检索策略提出对用户输入的检索条件进行语义扩充,加入特定的背景信息或者语义关系,这样使得计算机能够更好地理解用户的检索要求,也使得检索结果更加能为用户所接受。扩充的方法就是利用语义描述本体进行推理,并归纳总结了基于规则的推理算法。之后,针对基于本体的语义检索用于知识检索的特点,着重分析了两种不同层次的语义检索匹配方式,即本体概念间的语义检索匹配和基于文本内容的语义检索匹配,这两种匹配方式分别能完成两种不同的检索要求。
最后,给出了基于本体的语义检索系统的系统架构;就系统构建的环境和使用的相关工具做了简单的介绍;分析了信息源预处理模块、语义索引模块、及语义检索模块的实现。
本论文对基于本体的语义检索策略和方法进行了研究,基本为实现语义检索找到了一种可行的方法,具有一定的理论研究和应用意义。