论文部分内容阅读
随着网络技术的不断发展,网络资源呈爆炸性增长。如何在网络中最快、最准地找到有效信息已经成为信息检索技术面临的新的难题。面对这一挑战,数据挖掘和知识发现技术应运而生。概念格作为数据挖掘的有效工具,在信息聚类领域得到了成功而广泛的应用。但是,由于概念格构造复杂度是随着形式背景的规模呈指数级增长的,因此,构造效率始终是影响概念格应用的主要因素之一。为此,许多研究者从形式背景的规模入手来降低格构造的复杂度。本文对形式背景的相关知识及其约简方法进行了比较和研究,提出了一种基于对象相容度的形式背景近似约简算法。算法利用提出的对象相容度的定义,根据用户需求,计算每个对象与用户需求的相容程度,结合设定的对象相容度阈值,对原形式背景进行不同规模的近似约简,生成兼容子背景。利用生成的兼容子背景构造概念格,在提高格生成效率、控制概念格规模的基础上,最大程度的考虑用户需求,使概念格应用效果失真较小,为概念格的实际应用提供了有效的手段。本文的主要内容有:(1)概念格的理论基础简介,包括形式背景与形式概念和形式背景约简的相关定义和定理。(2)研究多值形式背景的分类,根据不同的类型,确定多值形式背景转化为单值形式背景的方法,为多值形式背景的近似约简提供了可行的思路。(3)研究形式背景的标准约简和近似约简方法,针对现有方法的缺点,设计了基于对象相容度的形式背景近似约简算法。并设计了概念格有效性的评价函数,对算法进行评价。实验证明,该算法在缩小形式背景规模的同时,提高了概念格的整体有效性。(4)介绍基于形式概念分析的信息聚类模型的设计思想和本文所做的工作在模型中的作用。