基于机器学习和智能优化的肿瘤基因表达数据挖掘研究

来源 :皖南医学院 | 被引量 : 1次 | 上传用户:dk_wow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:DNA微阵列技术通过同步追踪大量基因的表达水平而得到基因表达谱数据,广泛应用于生物医学各个领域。基因表达数据的一个重要研究方向就是肿瘤等重大遗传性疾病的病理诊断与分类研究。肿瘤作为一种由特定基因序列和表达变异引起的疾病,其表达谱的出现为肿瘤学提供了一种全新的临床研究手段。因此,本文对肿瘤基因表达数据进行挖掘研究,可以为肿瘤的早期诊断和临床治疗提供重要依据。方法:肿瘤基因表达谱具有样本小、维度高、噪声大、冗余多和非线性等特点,给现有的分析处理工作带来了一定的挑战。机器学习算法中支持向量机(support vector machine,SVM)处理高维非线性数据有独特的优势。智能优化算法一般不要求目标函数和约束的连续性与凸性,能很好的适应数据中的不确定性。因此,本文采用机器学习和智能优化相关算法分析挖掘肿瘤基因表达数据。主要内容包括:(1)基于基因表达数据中存在的大量无关基因和冗余基因,提出信息增益(information gain,IG)结合SVM的两阶段混合方法选择信息基因。该方法采用IG去除肿瘤样本中的大量无关基因,再利用SVM进一步约减数据中的冗余基因;(2)研究了粒子群优化算法(particle swarm optimization,PSO)、人工蜂群算法(artificial bee colony,ABC)等智能优化方法,详细分析了它们在处理高维非线性问题时的优势;(3)提出PSO结合ABC算法优化SVM的分类方法。该方法将PSO算法的寻优结果作为ABC算法的初始值,可以更有效的搜索到SVM相关参数最优值。结果:将改进的算法应用到多组肿瘤样本数据中,结果表明信息增益IG结合SVM筛选信息基因的方法能够获得数目较少且质量较高的基因子集,并对获得的基因进行分析,发现这些基因对相应肿瘤的研究有重要临床意义,其中包括已经证实的以及尚未被发现的基因。另外,对于结合PSO和ABC智能优化方法优化SVM的分类模型,在多组肿瘤数据上的结果显示,和其他优化方法相比,该混合方法的鲁棒性较好且分类精度更高。结论:论文提出的方法能够获得高质量的信息基因子集,并且采用构建的分类模型对肿瘤样本进行分类可以获得更优的分类结果,验证了机器学习和智能优化算法处理肿瘤样本数据时的有效性,对肿瘤的早期诊断和临床治疗方案制定具有一定的潜在价值。
其他文献
在智能手机领域,由于玻璃材质的智能手机屏幕盖板具有透光性好,硬度高等优点,因而得到了广泛应用。然而,由于受原材料特性、加工工艺、运输等多种复杂因素的影响,生产和运输
在对旅游与文化产业融合文献进行综述的基础上,运用耦合协调度模型对西北五省(区)旅游与文化产业的融合情况进行评价分析.结果显示:(1)西北五省(区)旅游与文化产业融合协调度
毛细血管渗漏综合征(capillary leak syndrome,CLS)是新生儿重症监护室(Neonatal intensive care unit,NICU)的危重症之一,1960年Clarkson B首次报道该病[1]。迄今,其发病机
以西安地铁3号线通化门站—胡家庙站区间侧穿长乐桥为工程背景,通过FLAC3D模拟计算,对比分析CRD(交叉中隔墙加台阶)法和台阶法施工对长乐桥桩基变形的影响。CRD法施工对长乐
期刊
近年来,网络信息科技迅速发展,使Facebook、Twitter以及新浪微博等在线社交网络平台兴起,从而使人们更易获取各种信息。如何准确揭示社交网络中信息传播的规律,以及如何有效
海南黑冠长臂猿(Nomascus sp.cf.nasutus hainanus)属于灵长目长臂猿科冠长臂猿属,仅分布于我国的海南岛,是我国的一级保护动物,IUCN的极危种和全球最濒危的25种灵长类之一。曾经
磷是植物生长发育所必需的大量元素之一,不仅参与组成DNA、RNA和磷脂等植物中多种重要的大分子有机物,也在植物的光合作用、呼吸作用和能量代谢等基础生理代谢过程中起十分重
"海绵城市"建设是近年我国应对城市雨洪灾害、用水短缺等问题的新举措,主要目标是最大限度地保持自然水文循环。本文以问题导向和目标导向相结合,从"宏观、中观、微观"多尺度
词典是语言学习者获取知识的有效工具和源泉,被誉为“最好的常伴左右的无声的老师”。但实际上,很多语言学习者对词典的结构和使用方法并不一定了解,多数学生不愿意查词典,不