论文部分内容阅读
摘 要:在传统粒计算理论的基础上,针对一种新的粒表示方法,因为其结构更适合进行层次分析,在其基础上进而构建映射系统,并尝试将该理论应用数据信息检索查询中,发现当粒度层次映射到特征库中,便可得到信息的层次结构图。结合用户检索时的兴趣点,通过添加或删除约束条件对检索的特征粒进行泛化或细化运算,从而引导用户找到满足兴趣点的信息,最后探讨了该方法在协助用户获取满足兴趣点的信息时的特点。并利用这个特点尝试构建基于粒结构的信息检索模型,讨论了该粒结构在协助用户获取信息时的特点。
关键词:粒计算;粒结构;投影;信息检索
中图分类号:TP301
粒计算是一种新的基于问题概念空间划分的智能计算方法[1-4]。通常可以从两个方面来研究粒计算的问题,一方面是粒的结构,另一方面是粒的计算,粒的结构主要对粒的形成,表示和解释进行讨论。而粒的计算主要讨论如何使用粒的问题。在目前粒计算理论研究上,许多学者对粒的结构和构建方面的问题进行了研究,比较典型的有从内容,结构,用法三个角度对粒的结构进行构建和分析,还有把一个基本粒表示成一个语法和语义的二元组等等。文献[5]结合实际应用,结合众多粒表示方法,采用一种适不但适应数据上具有离散性的原子粒,而且适用于不具离散性的数据。另一方面,信息检索特点和发展瓶颈也体现在具有模糊性和不确定性上,因此粒计算理论这种计算方法非常适合信息检索。
本文结合传统粒计算理论,针对一种新的粒表示方法,在其基础上进而构建映射系统,并尝试将该理论应用数据信息检索查询中,发现当粒度层次映射到特征库中,便可得到信息的层次结构图。结合用户检索时的兴趣点,通过添加或删除约束条件对检索的特征粒进行泛化或细化运算,从而引导用户找到满足兴趣点的信息,最后探讨了该方法在协助用户获取满足兴趣点的信息时的特点。并利用这个特点尝试构建基于粒结构的信息检索模型,讨论了该粒结构在协助用户获取信息时的特点,提高了数据分析的效率。
1 相关基本定义
1.1 假设在一个四元组特征库(U,A,V,F )中,令属性a∈A, 值域MVa,则将原子公式定义为(a,M),或记为aM,定义的粗糙逻辑公式如下:[5]
(1)aM是原子公式,原子公式是公式;若M=Va,则aM对应的对象为整个论域,并把该类原子公式记为T;若M=,则称aM为空公式。
(2)如果A和B是原子公式,那么A∧B是公式,使用连接词∧进行有限次运算所组成的式子是公式。
1.2函数h(a,M)表示所有在属性a(a∈A)上的值属于M(MVa)的对象集,即h(a,M)={x|a(x)∈M},其中x∈U,则信息系统S=(U,A,V, f )中粒的定义为:[5]
Gr=((a, M), h(a,M)),
其中原子公式(a, M)为粒Gr的语法,Gr被称为信息系统中的原子粒。
1.3 [6]设U表示特征库中表示对象的集合,G为表示特征库中特征粒的集合, N,N1,N2U,M,M1,M2G,F: (G)→(U)为特征粒集合G映射到对象集U的映射算子;L: (U)→(G)表示从对象集合U到特征粒上的映射算子。
2 粒的分层结构
2.1 (映射系统)假设Gr=(Ψ,(Ψ))为四元组特征库(U,A,V,F)中一个任意粒,其中公式Ψ可以描述为(a1, M1)∧(a2, M2)∧…∧ (an, Mn), Gr通过分解(分解算法参见文献[5])可以得到一个粒子集{Gr1,Gr2,…,Grn},则将Gr在S中映射系统表示(U’,G,I),其中U’=U – {x|(x,Gri)I , Gri },I为U’于满足G,的运算关系。
2.2 假设在一个组特征库中,Gr对应的映射系统为(U,G,I),设Q={(x,F(x))|x∈G, x= L(F(x))},则存在唯一的有序二元对Z与之对应。我们称这个有序二元对Z形成的数据结构为Gr在信息系统S中的投影。
对于特征库中任意一个粒子,都可以通过算法3.1找到与之对应的映射系统,在这个映射系统中每个粒子节点都满足以下特点,即每个粒子节点都有且只有一个最小子节点,每个粒子都有且只有一个最大父节点。由此特点可以再该映射系统找到该粒子的对应的信息系统中的投影。该投影描述的数据结构其实就是该粒子对应的粒度层次结构。
3 基于粒分层结构的信息检索
从大量的数据库中,检索出具有相似特征的信息是一个处理不确定信息的过程。这里要解决的问题是如何将查询特征与特征库中的资料按照一定的算法进行形似匹配,将满足一定相似性的一组候选结果按最优排序返回给用户。将查询特征形式化为一个组合粒,特征库形式化为信息系统,则特征与特征库中的数据形似匹配的过程转换为对特征粒的粒层次结构遍历的过程。
文献[4]讨论了用粒结构进行信息检索的可行性和有效性。本文在构建新的粒结构,提高粒的适用性的基础上,根据文献[4],给出基于新的粒结构的信息检索的初步模型,图1是模型构建的流程。
图1 基于新的粒结构的信息检索
这里基于粒结构的信息检索是特点在于在精确的检索进行之前,通过领域信息和用户背景将用户的检索条件形式化为特征粒,当把该特征粒投影到特征库时形成映射系统,与原系统比较映射系统的数据信息都是用户感兴趣的相关信息,所有这些相关数据信息形成一个不同粒度层次的粒结构,用户在对感兴趣数据信息的粒结构的检索时,根据自己的兴趣点,如果当前选择的特征粒相对兴趣点过于泛化的情况,可以采取细化运算。
4 结束语
本文在传统粒计算理论的基础上,针对一种新的粒表示方法,因为其结构更适合进行层次分析,在其基础对其粒度层次进行分析,并尝试将该理论应用数据信息检索查询中,发现当力度层次映射到数据中,便可得到信息的层次结构图。结合用户检索时的兴趣点,通过添加或删除约束条件对检索的特征粒进行泛化或细化运算,从而引导用户找到满足兴趣点的信息,最后尝试构建基于粒度分层的信息检索模型,并探讨了该方法在协助用户获取满足兴趣点的信息时的特点。下一步的工作主要研究新的粒结构下信息粒的泛化和细分运算,并完成基于该理论的信息检索系统的具体设计与实现。
参考文献:
[1]Yao Y Y.Granular computing: Basic issue and possible solutions[C].Proceeding of the 5th Joint Conference on Information Sciences.2000:186-189.
[2]Lin Yan,Qing Liu.Formalization for on Granular Computing Based on Logical Formaulas[J].Volume,2006(02):60-65.
[3]刘清,刘群.粒及粒计算在逻辑推理中的应用[J].计算机研究与发展,2004(04):546-551.
[4]曾毅,姚一豫,钟宁.基于粒结构的知识检索[J].计算机科学,2008(03).
[5]徐久成,成万里,孙林.一种新的粒表示方法及其距离计算[J].计算机应用研究,2010(06):2035-2038.
作者单位:解放军95007部队,广州 510410;95020部队,广州 510630
关键词:粒计算;粒结构;投影;信息检索
中图分类号:TP301
粒计算是一种新的基于问题概念空间划分的智能计算方法[1-4]。通常可以从两个方面来研究粒计算的问题,一方面是粒的结构,另一方面是粒的计算,粒的结构主要对粒的形成,表示和解释进行讨论。而粒的计算主要讨论如何使用粒的问题。在目前粒计算理论研究上,许多学者对粒的结构和构建方面的问题进行了研究,比较典型的有从内容,结构,用法三个角度对粒的结构进行构建和分析,还有把一个基本粒表示成一个语法和语义的二元组等等。文献[5]结合实际应用,结合众多粒表示方法,采用一种适不但适应数据上具有离散性的原子粒,而且适用于不具离散性的数据。另一方面,信息检索特点和发展瓶颈也体现在具有模糊性和不确定性上,因此粒计算理论这种计算方法非常适合信息检索。
本文结合传统粒计算理论,针对一种新的粒表示方法,在其基础上进而构建映射系统,并尝试将该理论应用数据信息检索查询中,发现当粒度层次映射到特征库中,便可得到信息的层次结构图。结合用户检索时的兴趣点,通过添加或删除约束条件对检索的特征粒进行泛化或细化运算,从而引导用户找到满足兴趣点的信息,最后探讨了该方法在协助用户获取满足兴趣点的信息时的特点。并利用这个特点尝试构建基于粒结构的信息检索模型,讨论了该粒结构在协助用户获取信息时的特点,提高了数据分析的效率。
1 相关基本定义
1.1 假设在一个四元组特征库(U,A,V,F )中,令属性a∈A, 值域MVa,则将原子公式定义为(a,M),或记为aM,定义的粗糙逻辑公式如下:[5]
(1)aM是原子公式,原子公式是公式;若M=Va,则aM对应的对象为整个论域,并把该类原子公式记为T;若M=,则称aM为空公式。
(2)如果A和B是原子公式,那么A∧B是公式,使用连接词∧进行有限次运算所组成的式子是公式。
1.2函数h(a,M)表示所有在属性a(a∈A)上的值属于M(MVa)的对象集,即h(a,M)={x|a(x)∈M},其中x∈U,则信息系统S=(U,A,V, f )中粒的定义为:[5]
Gr=((a, M), h(a,M)),
其中原子公式(a, M)为粒Gr的语法,Gr被称为信息系统中的原子粒。
1.3 [6]设U表示特征库中表示对象的集合,G为表示特征库中特征粒的集合, N,N1,N2U,M,M1,M2G,F: (G)→(U)为特征粒集合G映射到对象集U的映射算子;L: (U)→(G)表示从对象集合U到特征粒上的映射算子。
2 粒的分层结构
2.1 (映射系统)假设Gr=(Ψ,(Ψ))为四元组特征库(U,A,V,F)中一个任意粒,其中公式Ψ可以描述为(a1, M1)∧(a2, M2)∧…∧ (an, Mn), Gr通过分解(分解算法参见文献[5])可以得到一个粒子集{Gr1,Gr2,…,Grn},则将Gr在S中映射系统表示(U’,G,I),其中U’=U – {x|(x,Gri)I , Gri },I为U’于满足G,的运算关系。
2.2 假设在一个组特征库中,Gr对应的映射系统为(U,G,I),设Q={(x,F(x))|x∈G, x= L(F(x))},则存在唯一的有序二元对Z与之对应。我们称这个有序二元对Z形成的数据结构为Gr在信息系统S中的投影。
对于特征库中任意一个粒子,都可以通过算法3.1找到与之对应的映射系统,在这个映射系统中每个粒子节点都满足以下特点,即每个粒子节点都有且只有一个最小子节点,每个粒子都有且只有一个最大父节点。由此特点可以再该映射系统找到该粒子的对应的信息系统中的投影。该投影描述的数据结构其实就是该粒子对应的粒度层次结构。
3 基于粒分层结构的信息检索
从大量的数据库中,检索出具有相似特征的信息是一个处理不确定信息的过程。这里要解决的问题是如何将查询特征与特征库中的资料按照一定的算法进行形似匹配,将满足一定相似性的一组候选结果按最优排序返回给用户。将查询特征形式化为一个组合粒,特征库形式化为信息系统,则特征与特征库中的数据形似匹配的过程转换为对特征粒的粒层次结构遍历的过程。
文献[4]讨论了用粒结构进行信息检索的可行性和有效性。本文在构建新的粒结构,提高粒的适用性的基础上,根据文献[4],给出基于新的粒结构的信息检索的初步模型,图1是模型构建的流程。
图1 基于新的粒结构的信息检索
这里基于粒结构的信息检索是特点在于在精确的检索进行之前,通过领域信息和用户背景将用户的检索条件形式化为特征粒,当把该特征粒投影到特征库时形成映射系统,与原系统比较映射系统的数据信息都是用户感兴趣的相关信息,所有这些相关数据信息形成一个不同粒度层次的粒结构,用户在对感兴趣数据信息的粒结构的检索时,根据自己的兴趣点,如果当前选择的特征粒相对兴趣点过于泛化的情况,可以采取细化运算。
4 结束语
本文在传统粒计算理论的基础上,针对一种新的粒表示方法,因为其结构更适合进行层次分析,在其基础对其粒度层次进行分析,并尝试将该理论应用数据信息检索查询中,发现当力度层次映射到数据中,便可得到信息的层次结构图。结合用户检索时的兴趣点,通过添加或删除约束条件对检索的特征粒进行泛化或细化运算,从而引导用户找到满足兴趣点的信息,最后尝试构建基于粒度分层的信息检索模型,并探讨了该方法在协助用户获取满足兴趣点的信息时的特点。下一步的工作主要研究新的粒结构下信息粒的泛化和细分运算,并完成基于该理论的信息检索系统的具体设计与实现。
参考文献:
[1]Yao Y Y.Granular computing: Basic issue and possible solutions[C].Proceeding of the 5th Joint Conference on Information Sciences.2000:186-189.
[2]Lin Yan,Qing Liu.Formalization for on Granular Computing Based on Logical Formaulas[J].Volume,2006(02):60-65.
[3]刘清,刘群.粒及粒计算在逻辑推理中的应用[J].计算机研究与发展,2004(04):546-551.
[4]曾毅,姚一豫,钟宁.基于粒结构的知识检索[J].计算机科学,2008(03).
[5]徐久成,成万里,孙林.一种新的粒表示方法及其距离计算[J].计算机应用研究,2010(06):2035-2038.
作者单位:解放军95007部队,广州 510410;95020部队,广州 510630