【摘 要】
:
基因表达谱数据具有特征维数高、样本数量少的特性,传统的机器学习方法在基因表达谱数据的处理上仍然有较大的提升空间。近年来基于群智能优化和极限学习机的方法在基因表达谱数据的特征选择和样本分类上取得了良好的性能。然而,由于缺乏数据中先验信息的约束,基于群智能优化和极限学习机的方法在特征选择过程中容易丢失关键的基因,进而影响对肿瘤的识别准确性,并且处理方法缺乏可解释性。为了提高基因表达谱数据处理性能和处理
论文部分内容阅读
基因表达谱数据具有特征维数高、样本数量少的特性,传统的机器学习方法在基因表达谱数据的处理上仍然有较大的提升空间。近年来基于群智能优化和极限学习机的方法在基因表达谱数据的特征选择和样本分类上取得了良好的性能。然而,由于缺乏数据中先验信息的约束,基于群智能优化和极限学习机的方法在特征选择过程中容易丢失关键的基因,进而影响对肿瘤的识别准确性,并且处理方法缺乏可解释性。为了提高基因表达谱数据处理性能和处理方法的可解释性,本文在获取基因表达谱数据组合先验信息的基础上,运用编码先验信息的粒子群优化算法实现基因表达谱数据的特征选择,并应用集成极限学习机实现肿瘤预测,最后设计并实现了基因表达谱数据处理原型系统。本文的主要工作如下:1.为了提高基因表达谱数据的处理性能和处理方法的可解释性,提出了基于改良先验信息和二进制粒子群相结合的基因选择处理方法。该方法首先运用聚类,从具备不同功能的各基因簇中筛选代表性基因建立初始备选基因池。其次,将类别先验信息和皮尔森系数结合,获取基因表达谱数据中的组合先验信息;再次,将改良的组合先验信息编码进二进制粒子群优化算法中,选出与肿瘤类别高度相关的基因子集。最后,以多样性作为集成指标,建立集成极限学习机以实现基因表达谱数据的分类。在多个数据集上的实验结果表明,本文提出的基因表达谱数据处理方法不但能够筛选出与肿瘤相关的关键基因子集,还能提高肿瘤识别准确性。2.在上述工作的基础上,设计并实现了基于先验信息和二进制粒子群优化算法的基因表达谱数据处理系统。该系统包括基因表达谱数据的导入、基因选择和数据分类三个模块,能够对肿瘤实现自动预测。在该系统中,可以根据基因表达谱数据集对特征选择方法和肿瘤分类方法中的参数灵活设置,来实现对基因表达谱数据的高效处理,真正体现了数据驱动。
其他文献
保险代位求偿制度是财产保险的一项基本制度,其功能是为了维护损失补偿原则、防止道德风险等,随着保险行业的蓬勃发展,保险代位求偿权的适用方向,似乎与最初的制度设计有所偏
汉字是华夏五千年历史的沉淀所孕育出的结晶,它有着其独特的底蕴和魅力,是中华民族文化的载体,在历史传承的过程中起着决定性的作用。除了其内涵美外,它方方正正又十分传神的
本次翻译实践文本选自美国畅销作家凯萨琳.艾登于2018年9月25日出版的儿童文学小说《小空间》。该小说被美国《出版商周刊》和图书界最有声望的书评杂志《柯克斯书评》评为20
纳米级和亚微米级多晶材料在塑性变形过程中的晶界结构,对材料的强度、塑性以及疲劳性能等的重要影响而引起了人们的极大关注。在纳米级的多晶材料中,对晶界迁移进行了大量的研究。晶界迁移是再结晶和晶粒生长的基本机制。目前,对纳米晶晶界位错运动的研究是微观组织演化的一个研究的热点,尤其是在晶界位错在外加应变下的协同运动中。针对纳米级晶界及其位错在施加应变下的演化规律,采用最新由Elder提出的晶体相场(PFC
在六镇起义后,北魏全境民变四起,北魏在“平叛”的过程中接连失利,北魏中央权力开始崩溃。以往学界普遍认为,孝文帝改革后,实行“门阀政策”造成北镇之人地位下降,失去仕宦复
互联网金融一方面迅猛发展,一方面犯罪率不断激增。尤其在网贷领域,其本身因互联网作用下自带的面向对象的突破地域性、无人际关系依赖性、信息不对称性与刑法规制的非法集资
油画家李秀实的绘画风格丰富多变,从早期的写实风格到后来的写意风格,再到20世纪80年代的抽象表现风格,他的创作经历了几个不同风格的转换,值得我们关注的是,在20世纪80年代
明代之时,岭南诗派在整个诗坛上声名崛起,出现了许多优秀的岭南诗人,黄衷是明代中叶岭南诗人群体中的重要一员,与当时明代诗坛上以“金陵四家”著称的朱应登、顾璘等人以文学
受复杂度定义模糊不清,定量表述困难的影响,图像复杂度评测方法至今没有一个统一的概念,不同研究领域给予图像复杂度不同的定义和表示方法。本文试图给出图像复杂度定义、表示和评价的方法,并通过文中提出复杂度评价策略对图像分类、图像检索和人脸识别数据集进行复杂度评价,然后对评价指标运用统计学的相关知识给出合理的解释和推论,希望能为今后的图像处理研究给出合理的参考标准。主要研究内容如下:首先,基于蒙特卡罗算法
在全球化影响下,国内外传记文学交流进一步加深。回忆录是一种叙事性文体,属于传记文本。它是作者亲身经历的往事,兼具纪实性和文学性,人们称之为“岁月的录像”。本次翻译实