论文部分内容阅读
近年来人工智能得到了极大的发展,更有学者称其为第四次工业革命的关键技术,国内外众多商业巨头也开始倾注更多财力和人力研发人工智能领域,相应的研发领域包括人脸识别、智能安保、无人驾驶等等。人工智能的关键是让机器学会人类的判断,以贝叶斯网络为代表的研究在这方面有着先天的优势,贝叶斯网络利用概率分布表达不确定知识的决策因素,并将其过程以图形化方式展现。在贝叶斯网络中,朴素贝叶斯模型(Naive Bayes,NB)以简单高效著称,但其假设除类变量外其它属性间相互独立的假设却与现实场景大相径庭,实际应用中往往追求时间效率,所以NB也具有一定应用场景。在NB的基础上,为了降低决策属性间的独立性假设,产生了一些具有代表性的模型:如树增广朴素贝叶斯模型(Tree Augmented Naive Bayes,TAN),平均一阶依赖贝叶斯模型(Averaged One-Dependence Estimators,AODE)以及阶依赖贝叶斯模型(-Dependence Bayesian Networks,KDB)等等。其中NB和TAN更适用于小数据集,KDB在大数据集上表现良好但是模型复杂度也高。在所有非集成模型中,阶依赖贝叶斯模型(K-Dependence Bayesian Networks,KDB)的综合表现更有优势,在可接受的时间复杂度内,随着的阶数增加,KDB的分类准确度越高。但KDB在排序属性时,仅考虑了类变量与决策属性间的直接相关,而忽略了以决策属性为条件二者之间的条件相关,导致了部分有用的信息被遗漏。另外,KDB没有进行属性的选择,若数据集中存在冗余属性则可能增加模型过拟合风险并降低分类准确度。针对以上问题,在KDB的基础上,本文提出了一种强化属性依赖关系的阶贝叶斯分类模型,简称KDBSM,该算法以充分表达属性间的依赖信息为原则,强化属性间的信息表达,提升决策属性在分类中的决策表达,本文从贝叶斯网络最简单的局部结构出发,推导出充分表达决策属性信息的局部互信息(Local Information)公式,进而得到其对应的全局互信息(General Information)公式,利用推导的全局互信息优化属性次序,为了避免一些与分类无关的冗余属性被赋予更高的决策权重,本文融合基于弱属性的属性约简策略剔除冗余属性,降低模型结构复杂带来的过拟合风险,由于前个属性的局部结构是完全的,不需要进行因果推断,从第+1个属性开始,根据贪婪搜索策略选择最优属性并构建模型结构。本文分别从净胜数Goal Difference(简称)、0-1 loss、macro-F1三个常用测度验证算法的分类性能。其中测试的21个数据集选自UCI数据库,实验证明本文提出的KDBSM算法有着更高的分类精度以及更好的鲁棒性。