基于模型差异的选择性集成算法结合GC-MS尿液代谢组学用于新生儿代谢缺陷的筛查研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tmdjapanese
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新生儿代谢缺陷(inbornerrorsofmetabolism,IEMs)是由于基因突变导致的酶或蛋白质等发生功能性缺陷而引起的一类遗传代谢病。该病具有致残率高、发病急骤和损害不可逆转等特点,严重时会造成患儿死亡。因此,IEMs的早期筛查及其发病机制的探究,对于后续治疗方案的建立以及患儿死亡率的降低具有重要意义。目前,基于尿液的代谢组学方法已被成功应用于IEMs的早期筛查。代谢组学的研究策略是结合先进的高通量分析技术与化学计量学方法。基于高通量的分析技术获取海量的数据已经不成问题。化学计量学方法主要作用在于有效分析和挖掘所得的海量数据,从而识别各组间的代谢差异(模式识别)和筛选出能够辨别差异的显著代谢物(变量选择)。因此,发展高效的、稳健的化学计量学方法对于IEMs的早期筛查至关重要。在本论文中,考虑到基于模型差异的选择性集成算法能够明显改善识别结果和变量选择的稳定性和可靠性,并且能够缩减算法学习时间;同时鉴于套索(least absolute shrinkage and selection operator,LASSO)算法和分类树(classification tree,CT)算法能够自动筛选重要变量以及确定其相应的重要性值的优势以及偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)和极限学习机(extreme learning machine,ELM)算法的优越建模性能,我们发展了两种新型的适合于代谢组学数据特性和分析要求的化学计量学方法,并将其结合GC-MS测量技术用于新生儿IEMs的早期筛查中。具体工作内容如下:(1)在本章中,鉴于CT算法在变量选择方面的优势以及ELM具有的运算速度快但难以界定变量重要性的特点,我们将CT与ELM相结合,构建了一种新型的基础学习算法,即分类树极限学习机(CTELM)。CTELM算法首先构建一棵合适的分类树,继而将CT的分枝变量和树的总节点数分别作为ELM的输入数据和隐节点数目。另外,考虑到选择性集成算法在提高单个基础学习算法性能的优势,我们又设计了基于bagging算法和双误(doublefault,DF)度量的选择性集成算法,并将其用于提升CTELM的模型性能,从而发展了一种新型的稳健的代谢组学数据解析方法,即,基于DF度量的选择性自助集成-分类树极限学习机(DF-BAG-CTELM)算法。在DF-BAG-CTELM中:首先采用bagging思路平行建立多个CTELM子模型,每个子模型可提供对样本的识别结果和每个变量重要性值;然后使用DF方法度量子模型间的成对差异从而获得每个子模型的平均差异性大小;最后选择具有较大差异性的分类器构成集成系统,并获得最终的识别结果和重要变量。新发展的DF-BAG-CTELM算法被用于分析GC-MS测量的三组尿液样本(即健康婴儿,甲基丙二酸血症(MMA)患儿和3-甲基巴豆酰辅酶A羧化酶缺乏症(3-MCCD)患儿)的代谢数据,并与BAG-CTELM、CTELM以及ELM等算法相比较。实验结果表明,CTELM算法能有效地克服ELM难以实现特征变量选择的问题,同时,bagging的引入能有效地改善单个CTELM模型的识别性能以及稳定性,且基于DF的选择性集成算法能够进一步提升模型的性能,使其泛化能力明显优于BAG-CTELM。此外,结合单因素方差分析(one-way ANOVA)和倍数差异(fold change),DF-BAG-CTELM 算法筛选出了与 MMA 疾病相关的3种显著性代谢物,即3-羟基丙酸、甲基丙二酸和甲基枸橼酸;同时找到了能明显表征3-MCCD疾病的显著性代谢物3-甲基巴豆酰甘氨酸。(2)在本章中,考虑到LASSO能够有效地剔除无关变量和PLS-DA在建模方面的优势,我们发展了 LASSOPLSDA基础学习算法。在LASSOPLSDA中,LASSO用于选择变量,其回归系数不为0的变量作为PLS-DA的输入数据。同样,为了提升单个模型的识别结果和变量选择结果的稳定性,我们将DF与boosting算法相结合设计了另一种有效的选择性集成算法,即double fault-boosting(DF-BST),并将其用于提升LASSOPLSDA算法的识别性能和变量选择结果的稳定性和可靠性,发展了基于DF度量的选择性推进-套索偏最小二乘判别分析(DF-BST-LASSOPLSDA)算法。在DF-BST-LASSOPLSDA算法中,首先利用boosting思路通过迭代的方式产生一系列具有一定差异性的LASSOPLSDA子模型;然后使用DF方法计算子模型的成对差异性大小;最后的集成系统由具有较大差异性的子模型组成,变量的最终重要性值由所选的具有较大差异性的子模型给出的回归系数和变量被选频率共同决定。DF-BST-LASSOPLSDA 算法,连同 BST-LASSOPLSDA、LASSOPLSDA 以及PLS-DA等算法一起,被用于基于GC-MS测量的两组尿液样本(即健康婴儿和MMA疾病患儿)的代谢数据分析研究中。实验结果显示,与BST-LASSOPLSDA、LASSOPLSDA以及PLS-DA等算法相比,DF-BST-LASSOPLSDA算法通过选择部分差异性较大的子模型进行集成,其模型的识别性能明显优于BST-LASSOPLSDA、LASSOPLSDA以及PLS-DA等算法,同时变量选择的结果也更加稳定、可靠。另外,结合t-检验及fold change等方法,DF-BST-LASSOPLSDA算法鉴定出5种与MMA疾病相关的重要生物标志物,包括3-羟基丙酸、3-羟基异戊酸、甲基丙二酸、甲基枸橼酸和2-羟基癸二酸。
其他文献
伴随着近代中日之间的往来,伊藤博文的人物形象于19世纪80年初传入中国。从传入开始到20世纪20年代末共50年的时间里伊藤博文的在华形象主要可以分为四个发展阶段。第一阶段是初始印象时期。19世纪80年代初期,伊藤博文初步进入中国视野。1885年,伊藤博文正式在中国亮相,留下了负面的初始形象。第二阶段是良好形象建立时期。甲午前十年时间里伊藤博文的形象发生变化,良好形象建立,并经过甲午战争保留了下来。
随着人工智能技术的快速发展,大数据时代的来临,面对教育领域海量的知识资源如何巧妙地结合自然语言处理领域的相关技术更好地为学生、教师以及教育机构等服务是当前的一个研究热点。具体到数学领域,智能组卷、自动解题等都是目前自然语言处理技术与数学领域紧密结合的研究方向。智能组卷过程需要依据考察的知识点从试题库中选取合适的题型进行随机组合,而自动解题的过程往往也需要将不同类别的试题匹配到相应的解题模板。因此,
高效的癌症检测技术可显著提高癌症患者的生存率,因此提高癌症诊断精准度对其治疗具有十分重要的意义。荧光成像技术灵敏度高并且反馈迅速,在基础研究和临床实践方面应用十分广泛。研究表明,当荧光成像的区间逐渐红移至近红外二区(NIR-Ⅱ,1000-1700nm)时,可实现活体更深层组织的成像,且随着波长的红移,生物组织的自荧光和光散射现象也随之降低,可进一步提高癌症诊断的精准度。相比于目前报道的基于单壁碳纳
动物的配偶选择会影响其繁殖成功率,雌雄个体均会选择优质的个体做为配偶,如雄性会竞争个体较大的雌性作为配偶,雌性也趋于选择个体较大、亲缘关系较远的雄性作为配偶。个体较大的亲本或更高的繁殖投入,可能提高后代的适合度(如更快的生长和发育速度,更大的个体大小等);近亲交配或远亲交配会造成近交衰退或远交衰退,会对子代生长发育和适合度产生不利影响。因此,系统分析和探讨亲本大小、亲本投入及亲本亲缘关系对其子代生
由于以硅基半导体为代表的传统电子器件的尺寸逼近物理极限,研究者们将目光转向分子电子学领域,其研究的主要内容为从底端分子出发构筑电子器件。分子器件包括分子导线、分子整流器、分子开关等。分子导线作为沟通分子器件与宏观世界的桥梁,具有非常重要的研究意义。研究分子线电子输运特征,最理想的方式是构筑“金属-分子-金属”异质结并研究其单分子电导。研究发现,间苯分子线存在相消量子干涉效应,使得1,4-对苯分子线
人工智能技术的进步,推动了学习科学和认知科学领域的快速发展,探究人工智能技术在个体行为、认知、情感方面的应用前景,深化数据科学与教育科学领域的深度融合,实现数据驱动的个体潜在特征的深入挖掘分析,是人工智能领域急需解决的关键问题。关于个体情感状态的感知和测量一直是教育学、心理学和计算机科学领域研究人员关注的重点问题,如何对个体外显的行为数据进行精准的采集和提取,发现潜藏的内部心理特征,是人工智能领域
近些年,我国铁路事业飞速发展,为我们带来了巨大的社会效益和经济效益。然而,铁路工程的修建会使沿途的自然环境遭到破坏,对当地的生态系统造成了巨大的影响。本研究以天水至陇南线铁路工程为例,来研究铁路工程施工可能造成的陆生生态环境影响,从而提出解决办法。本文采用遥感解译、ArcGIS、ERDAS、Fragstats等技术手段,结合线路调查、样方调查以及相关资料,在充分考虑工程的特点和施工内容的前提下,就
蜘蛛抱蛋属隶属于单子叶植物天门冬科,因该属植物花接近地表生长,且被枯枝落叶覆盖不易被发现。为了解这类植物的传粉特性与繁殖策略,我们以蜘蛛抱蛋(Aspidistra elatior)、流苏蜘蛛抱蛋(A.fimbriata)与伞柱蜘蛛抱蛋(A.fungilliformis)3种为主要研究对象,进行了传粉生物学的初步研究。主要调查了三个种的生境、观察和记录访花昆虫的行为、测量花部特征及花的光谱测量、记录
花粉粒是种子植物的雄性配子,从雄性结构散发后,依赖一定的媒介传递到雌性结构表面,与雌配子体中的卵细胞融合实现有性生殖。花粉富含蛋白,一些动物采食花粉,如蜂、甲虫、食蚜蝇类昆虫。常见植物的花粉颜色是黄色,奶油色或橙色,罕见的是白色、棕色、黑色、红色,甚至蓝色或紫色。在一些植物中,种群内存在花粉颜色具有多态性,花粉颜色的多态性(pollencolorpolymorphism)为探究花粉颜色的适应与分化
自明清以来,工商业经济的发展始终推动着中国社会朝向近代化转型。一方面重塑着中国的经济政治体系,从原有的封闭环境下,通过户籍、土地、赋税等构造的王朝统治秩序转变到在国际政治经济体系中,通过国家的主导和制度支持,塑造出充满张力的现代经济与现代政治。另一方面,改变了传统上中国古代士农工商的阶层结构和国家对基层的强力而有限的控制,工商群体和近代社会产生,同时强有力的现代国家也通过发展经济等,进一步整合社会