论文部分内容阅读
统计关系学习是人工智能领域的一个新研究热点,其目的是在多关系的数据集中挖掘出数据中的统计关系模型。统计关系学习是集关系、逻辑表示,似然推理机制,机器学习、数据挖掘于一体。现有的统计关系学习,大多数似然关系模型下的研究都是基于完备数据条件下进行的,而现实问题中,数据通常是不完备的。同时也由于不完备的关系数据问题非常复杂,因此传统的机器学习领域中处理不完备数据的学习的方法,也很难直接应用到统计关系学习中。因此解决从不完备数据中学习统计关系模型的问题是非常必要的。
在传统的机器学习方法中,数据通常以“属性一值”的方式存在,即表示为单表形式。但在现实世界中,许多数据都存在着内部关系,即表示为多表形式的关系数据。因此,该问题不满足传统机器学习中普遍要求的独立同分布假设。在此类数据的样本之间或者样本的属性之间,往往存在着内在的关系或结构。由于关系数据的表示形式与“属性一值”的形式截然不同,传统的基于“属性一值”表示的机器学习技术难以用于解决这类问题。于是,统计关系学习这一研究领域应运而生,并且受到了越来越多研究者的重视。
似然关系模型(Probabilistic Relational Models,PRM)是一类基于贝叶斯网(Bayesian)的统计关系学习方法,它是标准贝叶斯网模型的扩展,PRM使用表示实体间关系的实体关系模型(Entity Relationship Model,ER)作为基本的表示框架,将PRM看成是描述关系型数据库上概率分布的模板[9]。模型的结构描述关系模式及属性间的依赖,模板的参数定义对象属性依赖关系的概率分布。于是,该模型除了能使用概率进行表示和不确定推理外,还可以处理关系数据,具有更强的表达能力,可以用来在复杂的系统上建模,这对智能信息系统的开发研究有着特别重要的意义。
GDT(Generalization Distribution table)的方法,描述了属性值的所有组合可能情况,对实例的所有泛式的可能概括,以及实例与其泛式间的概率分布。同时GDT方法,通过概括强度、规则置信度和规则强度,充分考虑到数据的不完整性,并可以把背景知识,背景知识的先验概率自然得用于学习过程。目前,GDT的思想在处理不完备数据的完备化问题中,缺省数据规则发现,应用背景知识对已有不完备数据进行优化学习一阶规则等方面已经有了广泛的应用。所以GDT的方法能够很高的解决不完备数据完备化的问题。
现有的关系学习研究大多是基于完备数据进行的,而现实问题中,数据通常是不完备的。在传统的机器学习领域中,从不完备数据中学习的问题已经得到了研究,但不完备的关系数据问题非常复杂,因此,几乎没有任何一项技术可以直接被扩展到关系学习领域。传统的机器学习算法可以被看成是数据集中仅有的一个表,并且不存在关系的学习算法。例如,Bayesian网络可以看成是仅包含一个属性类,并且不存在关系的PRM。因此,PRM结构学习的复杂度至少相当于Bayesian网络学习的复杂度。由于具有多个局部极值,如果将传统的机器学习中处理不完备数据问题的算法直接扩展到关系学习中,学习的复杂度将会明显提高,并且会得到较差的结果。因此,从不完备的关系数据中学习是关系学习领域中一个重要的、有待解决的问题。
在此基础上本文主要完成了以下工作:本文提出了一种基于GDT的从不完备关系数据中学习似然关系模型probabilistic relational models,简称PRMs)的方法。该方法首先使用GDT技术来对缺失数据进行预处理,填充不完备关系数据得到完备关系数据;然后从通过GDT填充的数据样本中,采用启发式搜索方法学习得到似然关系模型并作为初始PRM网络,并利用学习过程中前一步得到的网络结构中的规则强度形式的一节规则对数据集进行重优化:直到学习得出概率关系模型。
本文分别在一个模拟问题和一个真实问题域上进行了实验讨论。在模拟的School问题域上,生成具有5000个数据样本的4个数据集。分别在具有10%,20%,30%,40%的丢失数据这4个数据集上进行测试。在真实的movie域问题上,我们在数据库中选出了一个含有5000个movle、3000个actor和1500个director的子集。
由于现存的放法中几乎没有从不完备数据中学习PRMs的方法,因此,实验中用于比较的方法是先随机填充不完备数据,然后开始学习得到PRMs的方法。基于GDT的方法填充不完备关系数据并得到完备的关系数据,然后,算法通过将进化过程中最好的网络结构嵌入到不完备数据集中,有效地修复噪声数据。随着迭代的进行,修正的数据越来越好,数据趋于稳定并最终收敛。通过实验我们发现基于GDT的这种学习似然关系模型的方法,能够很有效的对不完备数据进行预处理,得到基于GDT的完备数据。将GDT的方法应用到统计关系学习PRMs的网络构造中,并且能够从不完备数据中学习到一个较好的模型结构。并且通过反复的迭代过程产生的冗余边也是比较少的。因此这种方法对统计关系学习具有一定得理论意义和现实价值。