【摘 要】
:
在“大数据”时代,将大量数据转化为有价值的知识在各个领域变得越来越重要,生物信息学也不例外。尽管机器学习已经在数据挖掘领域已经取得了巨大成功,但传统机器学习算法在很大程度上依赖于特征的表示。特征的挑选和构建通常需要较为深入的领域专业知识,而深度学习技术能够在没有领域专家明确指导的情况下自动学习输入数据的特征,基于大数据、并行和分布式计算技术的发展使得深度学习已经在各个领域取得了广泛的应用。近年来,
论文部分内容阅读
在“大数据”时代,将大量数据转化为有价值的知识在各个领域变得越来越重要,生物信息学也不例外。尽管机器学习已经在数据挖掘领域已经取得了巨大成功,但传统机器学习算法在很大程度上依赖于特征的表示。特征的挑选和构建通常需要较为深入的领域专业知识,而深度学习技术能够在没有领域专家明确指导的情况下自动学习输入数据的特征,基于大数据、并行和分布式计算技术的发展使得深度学习已经在各个领域取得了广泛的应用。近年来,高速发展的高通量测序技术为生物医学领域积累了海量的组学数据,已经有许多研究利用组学整合的手段来洞察生物学机制和分子功能。但是组学数据整合仍面临着包括生物背景差异、批次效应、数据标准化、数据降维等一系列挑战,为了推动组学数据的整合,必须解决多模态数据融合的问题,以及开发可扩展、高通量、用户友好的框架。基于以上问题,本研究分别从癌症多组学数据类型整合和蛋白质组学多种数据类型整合两个层面出发,利用神经网络模型开展组学数据整合与挖掘的研究。本文的主要研究内容如下:(1)本研究首先开发了一种基于图卷积神经网络的多组学整合模型Mo GCN,可以实现高效准确的癌症亚型分型分析。用自编码器和相似网络融合方法分别预处理数据后,将向量特征和患者相似性网络输入图卷积神经网络进行训练和测试,模型在TCGA的乳腺癌测试数据和泛肾癌验证数据上都取得了当前最好的性能。乳腺癌的案例研究还表明,模型捕获的特征可以揭示癌症亚型的分子特征,患者相似性网络可以为临床诊断提供直观的信息。研究结果证实Mo GCN在异构数据整合和分类结果的可解释性方面表现良好,在生物标志物识别和临床诊断中具有巨大的应用潜力。(2)细胞外基质(Extracellular matrix,ECM)是由细胞合成并分泌到胞外、分布在细胞表面或细胞之间的生物大分子,为细胞和组织提供机械结构支持和生物化学信号,在细胞生长、增殖、分化和迁移等过程发挥重要作用。本研究同时整合蛋白质结构域特征、理化性质和序列信息,开发了基于深度神经网络模型的ECM预测工具ECMPride2.0,并构建基于网站的数据库ECMPride DB(http://ecmpridedb.hupo.org.cn/)。该数据库提供了一个用户友好的界面,用于浏览、搜索和下载所有可能的ECM成分,并对这些分子提供了丰富的生物学注释。本研究可以作为ECM研究的宝贵参考资源,有助于发现和验证人类新的ECM蛋白。(3)最后,我们使用脱细胞方法结合蛋白质组学工具,鉴定人类真皮中的ECM分子并探究在皮肤老化过程中真皮基质的分子差异和发育特征,构建了新生儿、青少年、成年和老年人四个年龄段的皮肤ECM蛋白质特征图谱。系统分析了皮肤老化过程中不同类型ECM蛋白的年龄特异性功能,为皮肤组织在生长发育、衰老、损伤修复及相关疾病治疗等提供新的方向和思路。综上,本工作系统开展了基于深度学习的组学数据整合方法研究并进行下游的生物分析应用。开发的癌症多组学数据整合模型Mo GCN与人类细胞外基质蛋白质预测模型ECMPride2.0两个工具都达到了领域内最好的预测性能,提供了应用深度学习算法整合异构生物大数据的新思路;基于定量蛋白质组和数据库鉴定ECM,构建了首个人类真皮细胞外基质的时间分辨率蛋白质组图谱,为皮肤再生组织工程提供了新的线索。
其他文献
随着科技的不断发展,充电桩在我们的生活中起着越来越大的作用。现阶段充电桩的充电方式很单一,且不能改变电压,不能满足人们多元化要求。例如3V可以适配一些小功率电子设备,5V、6V可以适配手机快充,12V可以为电瓶等电动工具充电。本文针对现阶段充电器的充电方式单一、不能满足人们的多元化需求进行探讨,设计了一款稳定、高精度的直流稳压输出0~12V的充电桩。整个电路的设计使用到整流稳压部分、液晶显示模块、
信贷支农业务是金融扶贫支农的强有力抓手,在农民收入的稳定增长,区域农业经济的持续发展具有非常重要的意义。信贷支农政策是我国促进和发展农村经济的重要手段,对提高农民收入有关键性作用。如何能解决好“三农”问题对巩固我国脱贫攻坚所取得成果有着十分重要的作用。现阶段,我国有关三农问题的相关工作尽管取得出了一些不错的成绩,但总体上来看,农业基础状况尚未完全稳固,城乡区域均衡发展状况与人均居民收入差距的问题依
在社会经济高速发展的背景下,越来越多环境污染相关问题层出不穷,对居民的生活和正常生产产生非常大的影响。其中,污水处理则是非常重要的一种问题,具备较强的专业性和复杂性。所以,在现阶段,一定要注重思路清晰梳理,有序的做好污水处理,从而真正的让环保工程价值得到发挥。
案例教学法是一种以真实案例为教学材料、以多边互动研讨为主要教学环节、以提高学生综合能力为主要目标的教学方法。该方法强调能力本位、平等民主、主动参与等原则,着重引导学生“在做中学”,符合国家新课程改革的教育理念,能够真正落实历史核心素养的培养,对于提高学生们在现实生活中分析问题、解决问题的能力大有帮助。但是在目前的高中教学实践中,相对于政治、地理等学科来说,案例教学法在历史课堂中的应用要少得多。因此
随着人们消费水平的提高,烘焙食品逐渐成为世界上消费量最大的产品之一。但烘焙食品在热加工过程中会形成丙烯酰胺(acrylamide, AM),从而导致消费者不可避免地通过摄入烘焙食品而暴露于AM,成为烘焙制造业面临的最大问题之一。对烘焙食品中AM的形成机理、膳食吸收,以及对人体健康的影响进行综述,并对降低烘焙食品中AM含量的不同措施进行系统介绍,以期为烘焙制造业提供更好地AM减控方法,从而获得天然、
经营户们出价"拍"下来以后,仍然不能改变脏乱差的现象。缴费只能让摊贩们由地下转为地上,从担心害怕到理直气壮,即使收的费用真的是属于"卫生费"或"占道经营费",卫生状况也不会得到改变,占道经营依然存在,对于城市秩序的维护也起不到很好的效果。
在实现双碳目标的进程中,建筑行业占据着重要地位,推广绿色建筑的工作意义重大。绿色建筑是一个动态的概念,在近十年之中的研究和实践中,其内涵由原先的追求节能扩大为对人的健康、自然环境的和谐、安全耐久等方面的尊重。在实现双碳目标的现实境况下,绿色建筑应当遵循全寿命周期、以健康为本、与自然相协调等基本原则,把握好运用资源实现节能发展、循环利用水资源、合理规划场地等实施要点。在施工建设中把握全流程管理策略,
当前,数字经济正成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。数字经济能否助推摆脱中国高技术制造业产业链“低端锁定”的困境,促进产业链现代化建设是本文研究的重点。文章采用假设提取法和增加值分解框架测算了43个经济体2000—2019年的数字经济增加值和高技术制造业产业链现代化水平。实证分析结果显示,发展数字经济有利于提升高技术制造业产业链国产化水平和科技自立自强能力;有利于要
<正>北京市海淀区检察院2016年9月成立捕诉一体的科技犯罪检察部,专门审查以计算机网络为手段实施的科技犯罪案件。在办理此类案件中,检察人员面临的主要问题是对证据标准的把握。首先,关于证明标准和证据体系。目前的刑法理论是基于对传统现实犯罪的研究和沉淀发展起来的,但网络犯罪具有数据性、系统性等核心特征,与传统犯罪存在较大差别。
随着5G时代的到来,信息技术一直被认为具有支持教育教学变革的潜力,而对于未来即将从事一线教学的教育硕士而言,其信息技术教学能力的提高势必会成为未来促进学生核心素养发展的推动者。基于此,华中师范大学外国语学院提出了“数字外语教师能力提升计划”,构建了“建设资源库——开展‘云讲座’——组织课堂观摩——举办竞赛”的四层次递进式的数字外语教师培养模式,并从设施建设和教师队伍两个方面提出了在信息技术支持下的