论文部分内容阅读
传统的反向传播神经网络(BPNN)学习以分类错误最小为目标,通常假定在分类错误时所有样本的代价完全相同。但基于这种假设构造的BPNN在进行分类时,即使是很少的失误也可能付出惨重的代价。因而,以样本集的整体误分类代价最小为研究目标,已经成为当今BPNN及决策支持系统构造的研究热点。目前,代价敏感的BPNN研究一般考虑一种代价,通过调整样本分布、修改样本类别或修正BPNN的误差函数进行学习。这些学习方法存在的主要缺点有:(1)单一代价假设不符合现实存在的多种代价的实际情况;(2)以误分类综合代价最低为目标难于同时兼顾分类精度和分类代价。考虑到存在大量的无法用综合代价替代多种代价的情形,给出了一种兼顾分类精度和多种分类代价的BPNN学习方法,既不用调整样本的分布或样本的类别,也不用修改BPNN的误差评价函数。该学习方法以遗传算法为基础,将分类误差或多种分类代价同时作为优化目标,应用Pareto最优理论进行多目标优化,寻找分类精度和误分类代价均为最优的BPNN。为了避免遗传算法陷入局部最优,采用了小生境共享适应度的策略,以得到更多样化的BPNN。为了能够自动确定小生境的半径或范围,基于心理学关于分布均匀的判定策略,给出了一种在多目标空间中确定分布均匀拐点的新方法,并据此设计了可自动计算小生境范围的遗传算法。考虑到大量的输入属性可能导致复杂的BPNN,研究了用启发式方法和并行穷举方法约简属性的方法。启发式方法采用遗传算法进行属性约简,除了存在于选择操作的适应度启发函数外,还在变异操作中以信息熵为基础构造了启发函数;穷举方法基于循环队列自底向上约简,通过剪枝有效地提高了属性约简集的穷举速度。由于属性约简和多代价敏感的BPNN学习需要大量的计算,研究在P2P网络环境下进行并行计算是必要的。采用面向对象的技术开发了多代价敏感的BPNN分类系统,并用公共数据集UCI中的数据和真实数据进行了实验,真实数据来自863目标导向项目“基于网格的数字化医疗决策支持系统”的临床数据库。实验结果表明,自底向上的并行属性约简算法具有处理大规模属性的能力,同基于综合代价修改误差评估函数的BPNN相比,多代价敏感的BPNN在使用同等的误分类代价时,具有更高的分类精度和更低的误分类代价。