论文部分内容阅读
提出一种基于概率与信息熵理论的实值属性离散化方法,综合考虑了各对合并区间之间的差异性;该方法利用信息熵衡量相邻区间的相似性,同时考虑离散区间大小和区间类别数对学习精度的影响,并通过概率的方法得到了这两个因素的衡量标准。仿真结果表明,新方法对See5/C5.0分类器有较好的分类学习能力,并在肿瘤诊断中得到了很好的应用。