论文部分内容阅读
针对多类高维基因表达谱的特点,提出一种基于闭合模式的多类分类算法CBCP,即根据垂直格式的数据集采用路径枚举的方法挖掘闭合模式,极大地减少了冗余模式的产生。然后,对所有闭合模式进行排序,通过覆盖训练集建立分类器。针对分类器无法识别的样本提出权重算法进行判断,克服了使用Defult类预测不精确的问题。研究结果表明,CBCP与经典分类算法如CBA和C4.5相比具有更高的预测准确率,并且在基因数大幅增加而样本数不变的情况下仍具有较强的稳定性,证明CBCP的可扩展性强,适用于高维数据集的多类分类预测。