统计关系学习若干问题研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计关系学习是人工智能领域的一个新研究热点,其目的是在多关系的数据集中挖掘出数据中的统计关系模型。统计关系学习是集关系、逻辑表示,似然推理机制,机器学习、数据挖掘于一体。现有的统计关系学习,大多数似然关系模型下的研究都是基于完备数据条件下进行的,而现实问题中,数据通常是不完备的。同时也由于不完备的关系数据问题非常复杂,因此传统的机器学习领域中处理不完备数据的学习的方法,也很难直接应用到统计关系学习中。因此解决从不完备数据中学习统计关系模型的问题是非常必要的。 在传统的机器学习方法中,数据通常以“属性一值”的方式存在,即表示为单表形式。但在现实世界中,许多数据都存在着内部关系,即表示为多表形式的关系数据。因此,该问题不满足传统机器学习中普遍要求的独立同分布假设。在此类数据的样本之间或者样本的属性之间,往往存在着内在的关系或结构。由于关系数据的表示形式与“属性一值”的形式截然不同,传统的基于“属性一值”表示的机器学习技术难以用于解决这类问题。于是,统计关系学习这一研究领域应运而生,并且受到了越来越多研究者的重视。 似然关系模型(Probabilistic Relational Models,PRM)是一类基于贝叶斯网(Bayesian)的统计关系学习方法,它是标准贝叶斯网模型的扩展,PRM使用表示实体间关系的实体关系模型(Entity Relationship Model,ER)作为基本的表示框架,将PRM看成是描述关系型数据库上概率分布的模板[9]。模型的结构描述关系模式及属性间的依赖,模板的参数定义对象属性依赖关系的概率分布。于是,该模型除了能使用概率进行表示和不确定推理外,还可以处理关系数据,具有更强的表达能力,可以用来在复杂的系统上建模,这对智能信息系统的开发研究有着特别重要的意义。 GDT(Generalization Distribution table)的方法,描述了属性值的所有组合可能情况,对实例的所有泛式的可能概括,以及实例与其泛式间的概率分布。同时GDT方法,通过概括强度、规则置信度和规则强度,充分考虑到数据的不完整性,并可以把背景知识,背景知识的先验概率自然得用于学习过程。目前,GDT的思想在处理不完备数据的完备化问题中,缺省数据规则发现,应用背景知识对已有不完备数据进行优化学习一阶规则等方面已经有了广泛的应用。所以GDT的方法能够很高的解决不完备数据完备化的问题。 现有的关系学习研究大多是基于完备数据进行的,而现实问题中,数据通常是不完备的。在传统的机器学习领域中,从不完备数据中学习的问题已经得到了研究,但不完备的关系数据问题非常复杂,因此,几乎没有任何一项技术可以直接被扩展到关系学习领域。传统的机器学习算法可以被看成是数据集中仅有的一个表,并且不存在关系的学习算法。例如,Bayesian网络可以看成是仅包含一个属性类,并且不存在关系的PRM。因此,PRM结构学习的复杂度至少相当于Bayesian网络学习的复杂度。由于具有多个局部极值,如果将传统的机器学习中处理不完备数据问题的算法直接扩展到关系学习中,学习的复杂度将会明显提高,并且会得到较差的结果。因此,从不完备的关系数据中学习是关系学习领域中一个重要的、有待解决的问题。 在此基础上本文主要完成了以下工作:本文提出了一种基于GDT的从不完备关系数据中学习似然关系模型probabilistic relational models,简称PRMs)的方法。该方法首先使用GDT技术来对缺失数据进行预处理,填充不完备关系数据得到完备关系数据;然后从通过GDT填充的数据样本中,采用启发式搜索方法学习得到似然关系模型并作为初始PRM网络,并利用学习过程中前一步得到的网络结构中的规则强度形式的一节规则对数据集进行重优化:直到学习得出概率关系模型。 本文分别在一个模拟问题和一个真实问题域上进行了实验讨论。在模拟的School问题域上,生成具有5000个数据样本的4个数据集。分别在具有10%,20%,30%,40%的丢失数据这4个数据集上进行测试。在真实的movie域问题上,我们在数据库中选出了一个含有5000个movle、3000个actor和1500个director的子集。 由于现存的放法中几乎没有从不完备数据中学习PRMs的方法,因此,实验中用于比较的方法是先随机填充不完备数据,然后开始学习得到PRMs的方法。基于GDT的方法填充不完备关系数据并得到完备的关系数据,然后,算法通过将进化过程中最好的网络结构嵌入到不完备数据集中,有效地修复噪声数据。随着迭代的进行,修正的数据越来越好,数据趋于稳定并最终收敛。通过实验我们发现基于GDT的这种学习似然关系模型的方法,能够很有效的对不完备数据进行预处理,得到基于GDT的完备数据。将GDT的方法应用到统计关系学习PRMs的网络构造中,并且能够从不完备数据中学习到一个较好的模型结构。并且通过反复的迭代过程产生的冗余边也是比较少的。因此这种方法对统计关系学习具有一定得理论意义和现实价值。
其他文献
体育比赛中的精彩场面往往稍纵即逝,电视节目的制作者们常以慢镜头回放的形式展现精彩时刻给观众,这种方式可以在时间上,却不能在空间上满足观众的视觉需求,因为拍摄画面的摄像机
GD包装机是德国GD公司生产的专利产品,其在机械传动和电气控制方面的技术都达到了相当高的水平,小包烟支检测器是其至关重要的配件之一。当机器运行时,排列完整的20支烟随着模盒
图像是人们获取外界信息的重要媒介。尤其是在当今这个大数据的时代,图像对于人们的日常生活、科学研究都有着十分重要的作用。然而图像在记录和传播中难免会受到许多因素的
伴随着因特网技术的快速发展,因特网上的信息资源以惊人的速度不断增长。在对这些海量的信息进行检索的过程中,传统的Web搜索引擎越来越无法满足人们的需要。在这种情况下,各类
近年来,随着数字视频应用的日益广泛,图像压缩标准也在不断的提高和完善中。为此,国际标准化组织(ISO)和国际电信联盟(ITU)提出了一系列视频编码的国际标准。其中最为引人注目的
H.264/AVC是ITU-T和ISO/IEC联合推出的新一代视频压缩编码标准。与以往的视频编码标准相比,H.264/AVC的显著优点是压缩效率高、图像质量好、网络性能好,适用于交互和非交互应
随着互联网技术的不断发展,在线社交网络已逐渐成为互联网中最流行的交流平台。社交网络中的用户可以相互结识并分享传播各种信息。社交网络中的海量用户及用户发布的信息具有
人脸检测是模式识别和计算机视觉等领域中重要的研究课题,也是人脸信息处理领域的一项关键技术,在自动人脸识别系统、视频监控、基于内容的图像检索等领域的研究中发挥着重要
近年来我国国防实力得到很大增强,武器种类越来越丰富,作战方式越来越多样化,使军事仿真训练也变得越来越复杂,从而对军事仿真系统提出了进一步的要求,国家对于拥有我国自主
自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设计数据库自然查询语言接口,已成