论文部分内容阅读
随着信息智能化进程不断推进,人工智能已经广泛应用于各个方面。尤其在医疗诊断领域,越来越多的生理指标和疾病类型,加大了医生诊断疾病的难度,为了解决这个问题,许多研究学者将机器学习应用到疾病预测中,一方面可以对医生的诊断结果提供进一步的验证,另一方面还能给医生提供一个复杂疾病的分析工具。贝叶斯网络作为问题不确定推理的一个有效手段,它结合概率论和图论相关知识不仅可以完成问题的后验概率推理,还能很清楚地描绘出变量之间存在的依赖关系,具有很强的应用价值。本文以甲状腺功能减退症为研究对象,根据不同的网络结构构建了不同的贝叶斯网络分类模型,主要研究工作如下:(1)针对K2算法在学习贝叶斯网络结构时需要提供先验节点序的问题,本文使用传统遗传算法来学习节点次序,并针对传统遗传算法具有收敛速度较慢和收敛精度不高的问题,对其进行了改进,主要做法为将进化分为两个过程:渐变遗传过程和突变遗传过程。渐变遗传过程的目的是快速地获得较优的种群,因此使用了竞争淘汰的交叉变异方法;突变遗传阶段的目的是尽可能增加种群多样性,因此使用了动态增加变异概率,防止进化陷入局部最优。实验表明改进算法可以学习到更优的网络机构。(2)由于甲状腺功能减退症数据集中存在连续属性和缺失值,需要先对其进行预处理过程,然后基于预处理后的甲状腺功能减退症数据构建了朴素贝叶斯网络分类器、TAN分类器、BAN分类器和MBN分类器,并通过实验对比了这四种分类器的性能,最后结果表明BAN分类器的平均分类效果最好。(3)分析了甲状腺功能减退症数据中冗余属性的影响,并发现以全部属性作为网络节点的分类效果不是最佳的,因此将特征选择引入到分类模型中。然后针对ReliefF算法忽略特征之间相关性的缺陷,提出了一种改进算法,即用信息论中对称不确定来衡量特征之间冗余性,在ReliefF算法的基础上进一步剔除了冗余特征。实验结果表明,在参数设置合适时经过特征选择后的分类模型具有更好的分类效果。