基于特征选择和集成学习的结直肠癌预测模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:life11231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结直肠癌是世界范围内最常见同时也是最危险的恶性肿瘤之一,它的高发区主要集中在欧美、新西兰和澳大利亚等经济发达的西方国家。虽然中国是传统意义上的结直肠癌低发地区,但是随着人们生活方式及饮食习惯等越来越西方化,结直肠癌在我国的发病率正在逐年呈上升趋势,不仅严重危害着人们的健康,同时对人们的生活质量也造成了一定的影响。虽然结直肠癌一直是全球范围内最具危害的肿瘤之一,但是到目前为止,其病因及发病机制仍然尚未完全明了,尽管大量的流行病学研究表明结直肠癌的发生是一个复杂过程,在这个过程中,它不仅会受到环境因素、遗传因素等诸多因素单方面的影响,同时也可能受到它们之间相互作用的影响。然而,究竟是哪些环境因素、遗传因素或者其相互作用影响着结直肠癌的发生及发展,仍旧没有统一的定论。因此,建立结直肠癌预测模型,研究环境、膳食及遗传易感性等多因素对结直肠癌的影响具有重要的意义。本文基于第三军医大学提供的结直肠癌病例对照组样本数据,利用机器学习研究方法建立了结直肠癌预测模型,为结直肠癌早期诊断和预防提供了可靠依据,本文的主要工作如下:1、提出了从多方面的特征选择方法。由于数据维度较大,为了降低模型的计算复杂度,本文提出从两个方面对数据进行降维处理,即relief特征选择算法和相关性检验方法。通过relief算法计算样本特征权重,将权重小的特征删除,保留权重大的特征得到特征子集,然后对relief算法得到的特征子集进行相关性分析,对于相关性大的特征对,只保留权重大的特征,删除权重小的特征,进而得到权重大且无相关性的征子集,称之为最优特征子集。2、提出了混合集成学习模型(HELM)。HELM算法是在经典的集成学习算法Adaboost的基础上提出的。为了提高Adaboost算法的泛化能力,本文在提高Adaboost基本分类器的差异度上做了相关研究并提出了HELM方法。HELM方法同时融合了同态集成和异态集成方法,即分别利用不同类型的基本分类器训练得到多个Adaboost同态集成分类器,然后将这些Adaboost同态集成分类器作为基本分类器进行集成,最终得到HELM模型。结果表明,HELM算法具有很好的性能。3、建立了CRC癌症预测模型。整个预测模型分为四个部分:(1)数据收集和预处理。主要分为两个步骤完成,首先是对数据进行清洗,即除噪、处理缺失值等;然后通过第三军医大学研究结直肠癌的教授专家指导,从生物学的角度对数据进行分类,将一百多个维度的样本属性分为四大类,即基因位点(SNPs),人口学特征,生活方式及食物。(2)特征选择,从两个方面对样本特征进行提取,即按照特征对分类贡献大小(relief特征选择)和特征之间的冗余度(相关性检验)来选择最优特征。(3)分类预测,利用提出的HELM算法对数据进行分类预测。(4)对比分析,通过相关算法与HELM分类算法进行对比。综上所述,本文把基于relief特征选择算法和基于相关性检验的特征选择方法进行有效的结合,同时利用提出的HELM算法,建立的CRC癌症预测模型能够对结直肠癌进行有效的预测,并通过与相关算法对比,证明了本研究模型具有较好的稳定性及泛化能力。今后可将此模型应用于更多的复杂疾病病因学的研究中。
其他文献
炼钢-连铸生产调度问题具有复杂性、随机性强、约束力强、多目标等特点。在钢铁制造过程中,采用人工的方法对炼钢-连铸生产调度计划进行编制有一定局限性和困难性,很难对炼钢
对晋西葫芦1号、美国特早王、早青一代、碧玉、纤手2号等5个西葫芦品种在运城地区露地栽培条件下的生育期、产量、果实商品性状、开花结果习性及抗病性等进行了比较。结果表
目的:(1)分析乳腺癌患者癌组织及癌旁组织中NKILA的表达及差异。(2)探讨乳腺癌患者NKILA的表达与临床病理特征及分子分型的相关性。(3)探讨乳腺癌患者中医体质分布,分析中医
当我十三岁刚开始学艺时,昆曲名家徐凌云老先生、名丑华传浩老师的许多昆丑的代表作,是那样吸引着当时还不很理解昆剧艺术的我。王传淞老师在《十五贯》里塑造的、尽人皆知
日人井上哲男所著《医药品添加物》(1972)第109~115页载有一些防腐剂的主要性状、半数致死量、使用浓度等资料,颇有参考价值,特摘要作一介绍,供有关方面参阅。说明:原文是表
进入21世纪以来,文创产业的产值已成为经济增长的新动力,其出口也成为对外传播本国文化和展现软实力的最佳途径。其中,日本的文化创意产业闻名于世,且由于中日两国的文化相似
在前文 [1] 的基础上 ,描述了外因和内因的相互作用 ,即结合区波形形成的过程 .指出了流体力学波形形成机理存在的主要问题 ,探讨该课题研究的正确方向 ,总结了此波形形成在
<正>为推进医疗器械生产质量管理规范实施,加强医疗器械生产监督管理,指导监管部门对医疗器械生产企业实施《医疗器械生产质量管理规范》及其相关附录的现场检查和对检查结果
采用本体聚合的方法合成出了丙烯酸系热熔压敏胶并研究了合成丙烯酸酯共聚物的软单体、硬单体、官能单体的种类及用量对该热熔压敏胶性能的影响。
研究了阳离子引发剂的用量对脂环族环氧树脂紫外光固化的影响。并以脂环族环氧树脂为原料合成了一种新的用于紫外光固化的脂环环氧丙烯酸酯,研究了不同的引发剂对这种树脂固