论文部分内容阅读
作为概率论和图论相结合的产物,图模型理论为解决应用数学和工程中的 不确定性、复杂性问题提供了直观而自然的方法。近年来它逐步成为数据发掘 与知识发现领域中一个不容忽视的方向。根据“基于有向图模型的知识发现” 框架,本文研究图模型在知识发现领域的应用理论基础,包括离散化预处理、 结构学习、参数学习、模型解释等四个方面。 首先,本文分别提出了连续数值属性的无监督离散化算法和有监督离散化 算法。无监督离散化算法基于混合概率模型,它能够在缺少先验知识和参考属 性时自动离散化数值区间:首先建立属性值的混合概率模型,然后采用EM算 法来确定该模型的参数,最后利用贝叶斯因子寻求最佳区间数目。有监督离散 化算法-力权信息损耗离散化算法,是决策树离散化算法的一种扩展,但采用 了ChiMerge算法中的自底向上离散化方式。 然后,本文从概率密度函数逼近的角度对有向图模型的结构学习进行了理 论分析,归纳出“最大相互信息原则”,分析了运用该原则进行结构学习时的 性质,并提出了“附加惩罚函数的最大相互信息原则”,进而提出了有向图模 型结构学习的演化算法,该算法可以结合两类先验知识以提高学习效率,并设 计了一系列修正算子,以保证由已有拓扑结构繁衍出的新结构仍然是符合要求 的拓扑结构,而且不违背先验知识。 针对有向图模型的参数学习,本文提出基于复合计算智能的方法,设计了 各节点处条件概率密度的人工神经网络表示方法,使得参数学习时不再要求参 数满足局部无关性,也不再需要用户指定先验参数,进而提出了该人工神经网 中国科学院博士学位研究生学位论文 络的演化训练算法,从而确定有向图模型各节点处参数的值。 此外,本文还探讨了有向图模型的模型解释问题,分别提出了概率依赖关 系描述、条件独立关系的自然语言描述方法。 最后,本文介绍了一个概率依赖关系发现系统原型工具Dr.Miner的设计和 实现。