论文部分内容阅读
分类是数据挖掘和机器学习领域的一个重要问题,目的是通过训练数据集构建一个分类器来预测新的实例类别。近年来,DNA微阵列的发展为很多领域提供了一种高维数据,主要应用于癌症诊断和预测。跳跃显露模式(Jumping Emerging Pattern, JEP)是一种区分能力强的特殊模式,在分类方面有很明显的优越性。随着DNA微阵列和基因模式的快速发展,本文提出一种基于JEP的癌症分类算法。为了进一步提高癌症分类准确率,本文还研究了基于JEP癌症分类的组合分类算法,这在生物学、医学领域具有重要的研究价值和实际意义。本论文主要从基因表达数据的分析着手,其主要工作归纳如下:一、对基因表达数据进行预处理,DNA微阵列产生的数据具有高维性,有很多噪声,本文采用基于信息熵的离散化方法将连续属性离散化,依据最小长度原则找出基因的分割点,计算熵值,筛选出分类特征基因。熵值越小,特征基因分类能力越强。这种离散化方法可以有效消除噪声数据的影响。二、提出一种更具鉴别能力的基因模式,称为增强跳跃显露模式(IJEP),这种模式满足增长率趋近无穷大,且任何子集都不是IJEP的条件。提取IJEP的特征基因是通过基于信息熵的离散化方法获得,并在计算信息熵时,通过引入贝叶斯m-估计以克服小容量样本下频率等于概率的缺陷,从而提高熵的可靠度。三、用边界算法挖掘出有效的IJEP。用BORDER-DIFF算法获得不同的边界对,再用MBD-LLBORDDER算法产生IJEP。有效的缩短了IJEPs的挖掘时间。针对挖掘出的IJEP,提出一种癌症分类算法(CIJEP),同时通过改进相似度量的计算来提高预测的可信度。四、以基于IJEP的癌症分类器作为基分类器,将集成机器学习应用到癌症分类中,提出了Bag-CIJEP、Boost-CIJEP两种算法,在四个数据集上进行实验,实验结果提高了癌症的分类准确率。