论文部分内容阅读
微阵列技术可以在不同条件下同时检测成千上万的基因在细胞中的表达水平。已成为生物信息学研究的焦点,对生物医学研究产生了极大的影响。在癌症的研究中,微阵列技术可以从肿瘤基因表达数据的变异研究中,获得更好的癌症诊断与治疗方法。人工神经网络已在很多领域得到了成功的应用,通过集成多个体网络提高系统泛化能力的神经网络集成技术已成为神经计算技术的一个研究热点。本文研究神经网络集成技术在癌症分类中的应用问题。针对基因表达数据中样本数量小的情况,本文介绍了神经网络集成算法Bagging与Boosting方法,并对它们进行分析比较。Boosting算法以提高不易分类样本的训练机会,也即增加这类样本被抽中的概率来提高系统的分类效果,但不稳定;而Bagging算法以等概率的方式抽样生成训练集,虽分类效果不如Boosting,但更为稳定。为此本文建立一种不等概的抽样方法产生训练集,训练个体网络。并在基因表达数据上进行实验。结果表明,这种方法能有效地提高分类效果。研究表明,有选择性地将部分个体网络用于集成能比全部个体网络用于集成获得更好的效果,针对选择个体网络用于集成问题,本文提出一种动态集成方法,即以分类准确率为标准动态选择个体神经网络集成。在基因表达数据上进行的实验结果表明,神经网络集成的效果得到显著提高。在基因表达数据的分析中,针对特征基因选择,本文给出一种改进的信噪比方法,以中位数取代均值作为信噪比的参量。并在基因表达数据上进行实验,表明该方法能有效地剔除冗余基因。针对特征基因的选取,本文还提出一种基于分层抽样的方法选择基因构成特征基因集,并在结肠癌数据集上进行实验。实验结果表明这种方法可更有效合理地获得特征基因集。将多个单个分类器共同构成分量分类器,以分类正确率较高的分量分类器进行集成得到最终分类效果。在基因表达数据上进行实验,结果表明,以这种方法集成可有效地提高分类预测结果。