论文部分内容阅读
过去十多年里,大量的研究都集中在通过观察数据学习贝叶斯网络。在学习贝叶斯网络模型过程中有一个重要问题是,存在隐藏的或者潜在的变量。这些不可观察的变量却能够汇聚显变量之间复杂的依赖关系,简化网络结构,并对网络的学习、推理和预测等产生重要影响。因此,学习含有隐变量的贝叶斯网络模型成为该领域的一个重要研究内容;发现隐变量并确定其在网络中的位置是一个充满挑战性的问题,同时也具有重要的科学意义和较高的应用价值。论文中,将针对具有隐变量的贝叶斯网络结构学习展开一系列的探讨。具有隐变量的网络结构学习内容主要包括两个方面:一是,检测网络中含有的隐变量的个数;二是,确定具有隐变量的局部网络结构。针对这两个方面的研究内容,本文所开展的工作具体研究如下:第一,针对现有学习方法都难以准确确定网络中所含有隐变量个数的缺点,提出一种基于结构分解和因子分析的贝叶斯网络隐变量发现算法(S-FAHF)。S-FAHF算法的基本思想:首先,利用联合树算法生成具较强依赖关系的变量子集;其次,利用因子分析思想,通过求变量子集的特征值和累积贡献率确定变量子集中隐变量个数;然后,利用负荷矩阵确定与隐变量相关的显变量;最后,利用BIC打分函数和数据拟合度函数测试所发现的隐变量的有效性。第二,针对仅利用观察数据不能够准确确定隐变量与显变量之间因果关系的问题,提出将扰动学习方法(Intervention Learning)与S-FAHF算法相结合学习含有隐变量的贝叶斯网络最优结构的算法。该算法的基本思想是:首先,从初始网络模型中找出要学习的局部网络;其次,对网络中含有的隐变量进行扰动产生扰动数据并利用扰动数据和观察数据进行实验;然后,根据变量概率分布的变化确定含有隐变量的局部网络结构;最后,利用数据拟合度函数检验该方法的性能。通过现实生活中的数据,对本文所提出的方法进行了综合评估。实验表明,当准确确定网络中含有的隐变量个数及局部网络结构后,数据和网络的拟合度会明显提高,并显示了隐变量在实际生活领域中的广泛存在性和潜在应用性。