论文部分内容阅读
结直肠癌是世界范围内最常见同时也是最危险的恶性肿瘤之一,它的高发区主要集中在欧美、新西兰和澳大利亚等经济发达的西方国家。虽然中国是传统意义上的结直肠癌低发地区,但是随着人们生活方式及饮食习惯等越来越西方化,结直肠癌在我国的发病率正在逐年呈上升趋势,不仅严重危害着人们的健康,同时对人们的生活质量也造成了一定的影响。虽然结直肠癌一直是全球范围内最具危害的肿瘤之一,但是到目前为止,其病因及发病机制仍然尚未完全明了,尽管大量的流行病学研究表明结直肠癌的发生是一个复杂过程,在这个过程中,它不仅会受到环境因素、遗传因素等诸多因素单方面的影响,同时也可能受到它们之间相互作用的影响。然而,究竟是哪些环境因素、遗传因素或者其相互作用影响着结直肠癌的发生及发展,仍旧没有统一的定论。因此,建立结直肠癌预测模型,研究环境、膳食及遗传易感性等多因素对结直肠癌的影响具有重要的意义。本文基于第三军医大学提供的结直肠癌病例对照组样本数据,利用机器学习研究方法建立了结直肠癌预测模型,为结直肠癌早期诊断和预防提供了可靠依据,本文的主要工作如下:1、提出了从多方面的特征选择方法。由于数据维度较大,为了降低模型的计算复杂度,本文提出从两个方面对数据进行降维处理,即relief特征选择算法和相关性检验方法。通过relief算法计算样本特征权重,将权重小的特征删除,保留权重大的特征得到特征子集,然后对relief算法得到的特征子集进行相关性分析,对于相关性大的特征对,只保留权重大的特征,删除权重小的特征,进而得到权重大且无相关性的征子集,称之为最优特征子集。2、提出了混合集成学习模型(HELM)。HELM算法是在经典的集成学习算法Adaboost的基础上提出的。为了提高Adaboost算法的泛化能力,本文在提高Adaboost基本分类器的差异度上做了相关研究并提出了HELM方法。HELM方法同时融合了同态集成和异态集成方法,即分别利用不同类型的基本分类器训练得到多个Adaboost同态集成分类器,然后将这些Adaboost同态集成分类器作为基本分类器进行集成,最终得到HELM模型。结果表明,HELM算法具有很好的性能。3、建立了CRC癌症预测模型。整个预测模型分为四个部分:(1)数据收集和预处理。主要分为两个步骤完成,首先是对数据进行清洗,即除噪、处理缺失值等;然后通过第三军医大学研究结直肠癌的教授专家指导,从生物学的角度对数据进行分类,将一百多个维度的样本属性分为四大类,即基因位点(SNPs),人口学特征,生活方式及食物。(2)特征选择,从两个方面对样本特征进行提取,即按照特征对分类贡献大小(relief特征选择)和特征之间的冗余度(相关性检验)来选择最优特征。(3)分类预测,利用提出的HELM算法对数据进行分类预测。(4)对比分析,通过相关算法与HELM分类算法进行对比。综上所述,本文把基于relief特征选择算法和基于相关性检验的特征选择方法进行有效的结合,同时利用提出的HELM算法,建立的CRC癌症预测模型能够对结直肠癌进行有效的预测,并通过与相关算法对比,证明了本研究模型具有较好的稳定性及泛化能力。今后可将此模型应用于更多的复杂疾病病因学的研究中。