基于集成技术和机器学习方法的代谢组学数据分析方法及其在新生儿代谢缺陷筛查中的应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yhmlivefor51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢组学是生物流体或组织中低分子量代谢物动态变化的量度。代谢组学研究的基本策略为基于高通量分析技术量测的高维数据的获得和基于化学计量学方法的代谢组学数据解析。此类数据通常具有小样本、高维、高噪和易含奇异样本的特性。化学计量学在代谢组学数据解析中的两项主要任务为识别各组之间的代谢差异(即模式识别)并筛选出表征各组之间代谢差异的潜在的重要生物标志物(即变量选择)。近年来,分析技术平台的不断发展导致生成的数据结构的规模和复杂性不断增加,这也给现存的基于化学计量学的代谢组学数据解析方法带来了巨大的挑战。因此,探索发展适合于代谢组学数据特性和分析任务的化学计量学方法是非常必要的。代谢组学数据解析中,通常构建单个识别模型以实现代谢差异识别和潜在的生物标志物找寻。然而,已有研究表明:基于单个模型给出的结果往往在一定程度上是不稳定和不可靠的。在本论文中,鉴于分类树算法(classificationtree,CT)和随机森林算法(random forest,RF)能自动选择出重要的变量和确定其相应的重要性值,集成算法提高单个模型的识别结果和变量选择的稳定性和可靠性,机器学习算法中极限学习机(extreme learningmachine,ELM)、堆叠式自动编码器(stackedauto-encoders,SAEs)和分层极限学习机(hierarchical extreme learningmachine,HELM)优越的模式识别性能,我们发展了三种新型的代谢组学数据解析方法,并将其用于基于GC-MS量测的尿液样本的新生儿代谢缺陷(inborn errors of metabolism,IEMs)的早期筛查中。具体工作内容如下:(1)在本章中,考虑到ELM在模式识别方面的优势以及无法实现重要变量界定的缺点,我们引入CT算法作为ELM模型构建前的变量选择的filter方法,开发了一种基础学习算法,即,分类树极限学习机(classification tree extreme learning machine,CTELM)。在CTELM中,我们首先构造一棵未经修剪的分类树。在此基础上,将CT中的分枝变量作为ELM的输入。CT中涉及到的总节点数定为ELM中隐含层的神经元数。此外,考虑到选择性集成算法可以显著提高单个模型的鲁棒性和可靠性,我们又设计了基于粒子群优化算法(PSO)和Boosting的选择性集成算法,并将其与CTELM结合使用以形成一种新的稳健的适合于代谢组学数据特点和分析要求的化学计量学方法,即基于粒子群优化的选择性推进分类树极限学习机(particle swarm optimization-boosting-classification tree extreme learning machine,PSO-BST-CTELM)。在PSO-BST-CTELM中,首先通过迭代的方式不断更新权重来构建一系列的CTELM子模型,然后通过PSO选择部分准确性高且差异性大的子模型,以形成最终的集成系统。新提出的PSO-BST-CTELM与推进分类树极限学习机(boosting-classification tree extreme learning machine,BST-CTELM)、CTELM 和 ELM同时用于两种最常见的IEMs,即甲基丙二酸血症(MMA)和丙酸血症(PA)的GC-MS尿液代谢组学数据解析。结果表明,CT的引入很好地克服了 ELM的模型解释性差的问题,而PSO-BST-CTELM可以进一步提高单个CTELM模型的泛化能力和稳定性。此外,结合单因素方差分析(one-way ANOVA)和倍数差异(foldchange),PSO-BST-CTELM鉴定了 3种与MMA疾病相关的潜在生物标志性代谢物,包括甲基丙二酸、3-羟基丙酸和甲基枸橼酸,3种与PA疾病相关的潜在生物标志性代谢物,包括3-羟基丙酸、甲基枸橼酸和巴豆酰甘氨酸。(2)在本章中,考虑到自助集成分类树算法(baggingclassification tree,BAGCT)在变量选择中的良好可靠性和稳健性,以及传统的SAEs算法无法识别分类模型的贡献因子(即重要变量),我们将BAGCT与SAEs结合,发展了自助集成分类树-堆叠自动编码器(bagging classification tree-stacked auto-encoders,BAGCT-SAEs)。BAGCT首先利用Bagging技术并行建立一系列的CT模型,继而通过整合这一系列CT子模型提供的分枝变量和相应的变量重要性值,从而确定重要变量子集,以用于后续的SAEs模型构建。本文将新提出的BAGCT-SAEs联合SAEs、RBFN、SVM和PLSDA算法,用于两种最常见的IEMs(戊二酸血症1型,GA1)和丙酸血症(PA)的GC-MS尿液代谢组学分析。结果表明,在所有方法中,BAGCT-SAEs算法表现出最高的识别能力。此外,结合one-way ANOVA和fold change,BAGCT-SAEs鉴定了两种与GA1疾病相关的显著信息性代谢物,包括戊二酸和2-羟基戊二酸,4种与PA疾病相关的显著信息性代谢物,包括3-羟基丙酸、甲基枸橼酸、2-羟基丁酸和2-甲基-3-羟基丁酸。(3)在本章中,考虑到RF在变量选择方面的良好可靠性和鲁棒性,HELM具有优越的模式识别能力但模型解释性差的问题,我们引入RF作为HELM建模前的变量选择filter方法,发展了一种新型的适合于代谢数据特性和分析要求的代谢组学数据解析方法,即随机森林-分层极限学习机(random forest-hierarchical extreme learningmachine,RF-HELM)。在RF-HELM中,RF的作用在于选择变量作为HELM的输入。RF在对样本和变量的随机重采样的基础上并行构建一系列的CT子模型,根据每个变量对于构建分类模型的贡献获得一组变量重要性值的排序,通过阈值界定最终的重要变量以用于后续的HELM识别模型构建,从而克服了 HELM模型解释性差的问题。本章中新提出的RF-HELM与HELM、ELM、RBFN、SVM和PLSDA一起用于甲基丙二酸血症(MMA)和丙酸血症(PA)的GC-MS尿液代谢组学分析。结果均表明,RF-HELM既能提供可靠变量选择的结果,同时其识别性能要显著优于大多数传统的识别方法。结合one-way ANOVA和foldchange,RF-HELM鉴定了3种与MMA疾病相关的潜在信息性生物标志物,包括甲基丙二酸、3-羟基丙酸和甲基枸橼酸,3种与PA疾病相关的潜在信息性生物标志物,包括3-羟基丙酸、甲基枸橼酸和巴豆酰甘氨酸。
其他文献
黄河流域生态保护及高质量发展是目前我国经济社会发展所面临的重大挑战,而旅游业作为环境友好型产业及我国国民经济战略性支柱产业,其绿色发展对实现黄河流域的建设目标具有重要意义。旅游生态效率则是衡量旅游业绿色高质量发展的重要指标,探究黄河流域地级市旅游生态效率的时空分布特征及其影响因素,对推动黄河流域旅游业绿色高质量发展具有重要意义,也是对黄河流域生态保护及高质量发展这一国民经济发展目标的有力支撑。本研
学位
坚定的理想信念是中国共产党战胜一切风浪考验、永葆旺盛生命力和强大战斗力的重要思想武器,也是党的初心得以传承、使命持续担当的内在文化基因。理想信念建设则是共产党人补足精神之钙、紧握胜利之钥的灵魂工程。十八大以来,面对新时代的历史新境遇,习近平总书记立足推进党的建设新的伟大工程的战略高度,将坚定理想信念宗旨提升为党的建设的根基工程,并围绕共产党人理想信念建设这一时代课题发表了诸多饱含创新性的思想观点,
学位
随着社会经济与城市化的快速发展,建设用地的扩张,生态环境问题日益突出,土地利用方式以及生态环境问题已成为制约城市化与社会经济发展的关键问题,虽然制定一系列限制土地利用方式改变、退耕还林,耕地占补平衡等维护生态环境的措施,但当下土地利用与生态环境协调性不足。在城市化的过程中,不仅要考虑社会经济效益,更要兼顾资源节约型和环境友好型“两型”社会建设理念,实现绿色生态城市建设,在国土空间规划的大背景下,“
学位
由于全球经济形势和信息/电信技术的发展,全球工作、虚拟工作和自我管理团队的出现大大增加了专业工作的复杂性和灵活性。考虑到现代工作的复杂性,自上而下的工作(重新)设计越来越困难,组织更倾向于个体自下而上的工作(重新)设计,鼓励员工发展和主导他们的工作活动。重塑作为一种积极主动的行为方式,能够帮助个体更加高效工作,幸福生活,以应对这个压力日增的社会中可能出现的各种问题。那么重塑的效果到底如何,这一效应
学位
基于TIA15.1中的S7-PLCSIM功能,结合生活中常见的十字路口交通灯现场控制需求,设计了使用MCGS触摸屏和西门子S7-1200组合的工控系统。考虑了工控系统开发前期无实物PLC和触摸屏的场景问题,利用NetToPLCsim搭建起S7-PLCSIM与MCGS的虚拟仿真架构。调试结果显示,该方法稳定可靠,能够为S7-1200PLC与MCGS触摸屏早期联合开发项目提供高效的虚拟仿真技术支持,更
期刊
机器自动解答初等数学算术题具有非常大的挑战性,主要是人类理解数学问题的思维与机器可理解的逻辑表示之间存在很大的语义差距。尽管20世纪60年代就开始了机器解答算术题方面的研究,但其研究结果和人们的预期期望还是存在着很大的差距。以往的研究方法需要过多的人为规则和人工干预,并且应用场景单一,往往只能解决研究者预先设定好的场景下的算术题。近年来,基于深度学习的数学算术题机器解答的研究,又重新获得了很大的发
学位
初中阶段作为毕生发展的一个关键阶段,承担着个体由童年期逐步向成年期发展的过渡作用,青少年期的初中生在生理及认知发展和社会性等方面都会产生巨大的变化。环境和社会适应的好坏会对包括同伴关系、学业成绩、自我认同等在内的整个青少年期的生活与学习产生影响,处理人际关系等社会问题的能力对个体而言显得尤为重要。社会创造性是在社会领域表现出的创造性,体现在个体的日常社会活动和人际交往中,其重要性不言而喻。因此,本
学位
机关事务管理工作高质量推进是我们国家当前焦点工作之一,稳步推进机关事务管理法治化是治理模式迎合新时代、促进机关高效发展的新要求。依法行政有效深化、加快法治政府建设也能从机关事务管理法治化进程中集中体现,机关事务管理法治化是稳步推进依法治国具有实践意义的重要举措。2020年底,中共中央发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》与《法治中国建设规划(2020—2
学位
在金融市场定价理论中,资本资产定价模型(CAPM)一直都是起主导作用的资产价格文献。风险与预期收益之间的权衡一直都是金融学中最受关注的问题,近几十年来,左尾风险是否在确定预期回报的横截面方面发挥特殊作用的问题也一直受到金融经济学家的关注。风险规避的投资者要求以更高的预期回报的形式获得更高的报酬,以持有风险更高的金融证券。转换到左尾风险框架,在对预期收益相关高阶矩变量分布不了解的情况下,具有较高左尾
学位
近年来,中国地方政府债务迅速增长,政府债务在补缺口、强基建和促发展等方面发挥了积极的作用,但由于规模增长快,债务风险不断累积,且越来越突出,已成为我国经济可能的“灰犀牛”。与此同时,地方政府债务扩张所产生的巨额资金需求可能会通过金融市场的传导影响公司部门的融资需求。全社会的资金资源在整体上是有限的,当地方政府的融资需求大幅上升以及地方政府的信用较好,银行会偏向选择地方政府,一定程度上挤占原本属于公
学位