论文部分内容阅读
传统的肿瘤分类研究建立在临床观察、解剖学和病理学的基础上,存在经验性和主观性。随着生物学和生物技术的发展,肿瘤研究越来越依赖于分子生物学手段,所产生的微阵列基因表达数据为这些研究的开展提供了数据平台。近十多年来,已有较多的常规和智能优化分类算法用于微阵列基因表达数据的分类研究,但均存在一定的局限性,导致其无法准确和稳定的对肿瘤微阵列基因表达数据进行分类。论文通过对微阵列基因表达数据处理的难点分析、常规和智能优化分类算法的研究,提出了基于分层分群思想建立的双层粒子群优化(TLPSO)分类算法和基于全局搜索元和局部搜索元交替寻优层层递进的搜索思想建立的多元优化过程记忆(MOA)分类算法。以美国UCI机器学习数据库中的Heart、Vote、Iris和Wine数据集为对象测试TLPSO和MOA分类算法,以美国麻省理工学院和哈佛大学联合实验室的白血病、弥漫大B细胞淋巴瘤、以及由肺、乳腺、前列腺和结直肠等4类肿瘤组成的3个肿瘤微阵列基因表达数据集为研究对象,测试TLPSO和MOA分类算法在肿瘤微阵列基因表达数据分类中的性能。同时,建立遗传算法(GA)和粒子群优化(PSO)算法的分类模型,与TLPSO和MOA分类算法在肿瘤微阵列基因表达数据中进行对比测试。在UCI数据集的分类测评中,TLPSO和MOA均能获得较好的分类结果,但TLPSO在分类稳定性、收敛性方面要优于MOA,TLPSO的分类正确率随数据集的不同有所差异,收敛速度较快,MOA在不同数据集中的分类结果差异较大,稳定性和收敛性不好。在肿瘤微阵列基因表达数据的分类测评中,随着分类对象的不同,TLPSO和MOA均能获得较好的分类准确性、稳定性和收敛性,但分类结果随实验参数的不同而改变。在白血病分类研究中,算法性能与实验参数的改变关联性不大,但在DLBCL和多类肿瘤分类研究中,实验参数的改变对算法性能有一定影响。在与GA和PSO分类算法的分类测评对比中,对于小样本训练集组合,TLPSO和MOA都具有较好的分类准确率和稳定性;随着训练集样本数的增大,MOA仍可获得较好的分类结果,但TLPSO分类准确率会略微降低,同时GA分类算法性能较差且极不稳定,PSO分类算法总体上随着训练集样本数的增加而出现分类性能降低。实验结果表明,TLPSO分类算法有效改进了PSO分类算法容易陷入局部最优的问题,MOA分类算法具有较强的全局和局部寻优能力,TLPSO和MOA均能在不同的肿瘤微阵列基因表达数据分类研究中取得较好分类结果,能为临床肿瘤基因表达样本的分类定型提供依据。