论文部分内容阅读
分类器是自动识别、预测与诊断系统等智能技术应用研究的基础,是数据挖掘和机器学习领域的一个主要研究对象.在众多分类模型中,贝叶斯网络分类器得到了多年的持续研究,综合性能不断提高.近年来,为了进一步提高其分类精度,一些研究人员开始研究其与贝叶斯网络学习算法的差异性.因为优化贝叶斯网络分类器的目的是提高分类器的精度与效率,而优化贝叶斯网络的目的是提高描述数据变量分布的能力,所以两者在有些方面存在很大的不同.一般来讲,学习算法的设计可以采用生成式策略或鉴别式策略.由于鉴别式策略采用的评价标准能够直接衡量分类器的精度,且能够对与实际数据变量分布有一定差异的网络结构进行调整,所以更适合应用于设计分类器学习算法.但是,鉴别式训练策略的优化目标函数缺乏良好的数学性质、学习的复杂度较高,所以需要结合其特点研究分类模型的设计,提高分类器的精度,减少训练的时间;需要分析新模型对环境和数据质量的依赖程度,研究其实际应用的价值.本文围绕一些实际问题深入研究了树型贝叶斯网络分类器(Tree-Structured Bayesian Network Classifier, TBNC),主要贡献如下:(1)研究得出鉴别式参数学习算法不适合在具有冗余边的树型贝叶斯网络结构上训练参数.首先,对贝叶斯网络结构与数据中变量的真实分布之间的关系进行了定量描述,将比真实分布复杂的网络结构定义为存在冗余边的网络结构;然后,用实验验证了冗余边存在的普遍性及其消极影响,说明了研究树型贝叶斯网络分类器分类器的价值;最后,基于对数条件似然函数偏导数的性质提出了一种消除网络结构中冗余边的RSD (Reducing Structure by Derivatives, RSD)算法,对网络结构进行优化,并用实验验证了该算法能够有效提高鉴别式参数学习算法在树型贝叶斯网络结构上训练得到的分类器的分类精度.(2)研究得出有相同结构底图的树型贝叶斯网络分类器等价.首先,分析了树型贝叶斯网络结构空间及其等价类,描述了具有相同底图的树型贝叶斯网络结构的等价关系和属性变量子网中边的方向无关性:然后,提出了一种树型贝叶斯网络分类器学习框架LFWAR (A Learning Framework of TBNC Without Considering Arc Reversal, LFWAR),实验验证了LFWAR得到的分类器的精度和稳定性在统计意义上无显著差异;最后,在场景分类问题的基准图像数据库上实验验证了应用属性变量子网中边的方向无关性设计的算法能够在不降低分类精度的前提下,减少分类引擎的训练时间.(3)研究得出树型贝叶斯网络分类器结构训练过程在多源非独立同分布数据上是健壮的.利用菲谢尔p值组合方法设计了一种应用于多源非独立同分布数据的分类器学习算法,来分析非独立同分布数据对树型贝叶斯网络分类器结构训练的影响.尽管在机器学习领域的研究成果表明贝叶斯网络结构训练会受到非独立同分布数据的较强影响,菲谢尔p值组合方法能够有效降低这种影响,但这种方法难以有效提高树型贝叶斯网络分类器的性能,因而表明在非独立同分布数据上的树型贝叶斯网络分类器结构训练过程是健壮的.(4)研究得出树型贝叶斯网络分类器鉴别式参数训练过程对噪声数据是敏感的,需要相应降噪策略.首先,将仅适用于二类值分类问题的集成贝叶斯网络参数学习扩展到适用于多类值分类问题的集成参数学习;然后,应用一种控制样本权重的方法抑制噪声数据的影响,且对多类值分类问题,提出了一种适用于处理不平衡数据样本的类别置信度量函数和降噪算法SmoothedBNB (Smoothed Bayesian Network Boosted Classifier, SmoothedBNB);最后,实验验证了控制样本权重的方法能够降低鉴别式参数训练过程的噪声敏感性,且所提的SmoothedBNB算法能够处理多类值分类器降噪时遇到的不平衡数据问题.这些结论从多种角度论述了应用于分类的贝叶斯网络与应用于描述性的贝叶斯网络的差异性,展示了树型贝叶斯网络分类器的应用价值,改善了鉴别式训练策略的适应性,为实际应用奠定了良好的理论基础.