【摘 要】
:
随着高通量测序技术的出现和不断发展,生物序列分析变得更加普及,越来越多的生物学研究都涉及物种的基因层面的变化。与此同时,基因组学、转录组学和蛋白组学的生物信息学分析流程也在不断成熟,相关分析也几乎成为了生物学研究深度的重要指标。其中,诸如基因的时空表达量的变化和基因突变往往是生物组学研究的重点分析对象。当细胞或生物个体适应特定的环境变化的过程中,会驱使自身的基因发生特异或非特异的突变。这些基因型的
论文部分内容阅读
随着高通量测序技术的出现和不断发展,生物序列分析变得更加普及,越来越多的生物学研究都涉及物种的基因层面的变化。与此同时,基因组学、转录组学和蛋白组学的生物信息学分析流程也在不断成熟,相关分析也几乎成为了生物学研究深度的重要指标。其中,诸如基因的时空表达量的变化和基因突变往往是生物组学研究的重点分析对象。当细胞或生物个体适应特定的环境变化的过程中,会驱使自身的基因发生特异或非特异的突变。这些基因型的变化经常会关联生物体表型的变化。比如在细菌的实验室进化试验中,研究人员通常采用长时间继代诱导的方式使试验样本适应设计的培养条件,观察样本生物表型的变化并通过基因测序确定进化过程中的基因突变,以此来研究特定基因型和表型之间的关联。众所周知,在突变基因中,错义突变是最受关注的部分。错义突变就是由于碱基替换导致编码氨基酸的变换,氨基酸的变化和蛋白质整体功能的相关性一直是蛋白质功能研究的重点和难点。然而,针对突变后的蛋白功能进行实验验证需要较高的成本。此外,通常单个变异样本通常包含成百上千个错义突变,进行全面的实验验证也是不仅耗时费力也缺乏实际的操作可行性。近年来,人工智能相关技术发展迅速,其在生物学领域的应用也日趋广泛。如何使用计算方法预测或者分析错义突变也成很多蛋白生物信息学研究的目标之一。此外,深度测序扫描技术的出现为机器学习方法提供了大量的可靠的实验数据,这些进步也使得用依赖数据量的机器学习方法来预测分析错义突变效果变得更加可行。本文采用深度生成网络方法,拟合同一蛋白家族功能蛋白的数据概率分布,通过变体的生成概率来预测错义突变的影响。为了提高模型的拟合能力,本文引入词嵌入网络和注意力机制,力图预测结果得到进一步的提升。此外,本文将建立的错义突变预测方法应用到本实验室培养的两种细胞壁缺陷型大肠杆菌L型细胞,目的在于研究L型细胞细胞壁突变和生长的关键基因突变。本文在分析L型细胞与野生型细菌的基因组学的分析过程中,添加了错义突变预测分析,筛选比对出一系列错义突变基因,预测结果使得对比分析更加精细和可信度,为下游的基因富集、通路分析和进一步的功能分析提供了重要参考。
其他文献
随着半导体技术的迅猛发展,突破物理尺寸的限制变得越来越困难,纳米线环栅已成为5nm以下技术节点的核心器件结构。而可重构场效应晶体管器件(RFET)得益于其自身的结构特点,通过极性栅(Program gate,PG)调控流经沟道内载流子的类型,在一个晶体管内可实现N型导电与P型导电的动态可重构,拓宽了传统晶体管的功能。这样通过RFET的可重构特性,从而可以达到使用较少数目的晶体管去实现更加丰富的逻辑
网络管理机制的核心就是对网络设备进行监控然后根据监控结果发送操作指令。传统的分布式网络管理采用SNMP、Netflow等网络管理方式,在应对不断增长的网络规模下已逐渐不满足要求。例如在数据中心网络中,传统的网络管理方式无法适配数据中心网络大规模、低时延、不可预期等特征。在软件定义网络(SDN)架构下,转控分离和数据面可编程的出现,使得有能力实现低时延监测的带内网络遥测(INT)发挥出了优势。所以,
混成系统是同时包含连续状态和离散状态的动态系统。连续部分通常模拟物理环境的相互作用,而离散部分通常模拟控制系统的运行。计算和控制的结合会导致非常复杂的系统设计,因此混成系统常被应用于航空航天、汽车工业和工厂自动化设计中。到目前为止,混成系统中使用了多种形式化建模方法:混合自动机、混合Petri网、Modelica、Zelus等。对于混合系统的形式化验证,可以使用多种工具,如Hy Tech、PHAV
自股市诞生之后,股票预测问题就受到了来自金融领域和计算机领域的众多研究者的关注。随着深度学习的发展,历史股价、新闻、论坛等数据被各种各样的深度学习模型运用于股票预测问题。然而,其仍然面临着诸多难题,例如财经新闻数据大、涉及面广,当财经新闻中未直接出现上市公司名称时,难以预测受该新闻影响的上市公司,即财经新闻的相关公司挖掘问题;上市公司之间存在复杂多样的关系,公司间相关性建模困难等问题。针对上述挑战
随着人工智能的高速发展和移动设备的普及,各种基于深度学习的应用进入我们的生活,深度学习的成功离不开神经网络对数据的高表征能力,离不开庞大且丰富的数据集。其中,分布式数据处理和分布式机器学习的作用日益凸显,需要多个参与方协作的需求不断涌现。然而,在实际场景中,很多数据由于隐私安全和保密政策,数据拥有者不愿意或不允许将数据分享出来。并且,将数据聚合到一起训练模型会产生高昂的通信成本和存储成本。由此,联
当下主流的阅读理解模型,通常依赖于多头自注意力机制来获取与问题文本相似度最高的答案,其成功的秘诀主要在于预训练语言模型对语言模式相似度的学习能力,而非基于自然语言进行高度的抽象和推理。这也意味着现有的阅读理解模型仅能基于问题表层的信息进行回答,而对于一些需要知识支撑或涉及推理的问题还是难以解决。针对这一问题,本文提出了一种新颖的知识增强图注意力网络(KEGAT),它可利用来自外部知识库Concep
滩涂是海陆交汇的敏感地带,是海滩、河滩和湖滩的总称。沿海滩涂通常包括泥滩、沙滩和岩石区域,是大量水禽、候鸟、螃蟹、软体动物和鱼类等重要野生动物的栖息地,是沿海城市发展重要的物质基础和后备资源。来自海岸开发、海平面上升、海岸侵蚀、河流沉积物流量的增减、海岸沉淀物的沉降和压实,都会对滩涂带来影响。通过对遥感图像的观测,可以有效地了解滩涂的变化情况,从而可以达到管理、保护和恢复海岸生态系统的目标。由于月
随着信息技术的不断发展,数据逐渐成为一种宝贵的社会资源,具有着巨大的社会效益和经济价值。这些数据通常是由用户的个人信息或使用记录组成的,含有大量的敏感信息,若操作不当可能会造成严重的隐私泄露问题。本文首先在智能电网场景下基于安全多方计算技术提出一种隐私保护的数据聚合方案,由于Shamir秘密共享算法具有加法同态性,用户只需将自身电量读数数据的秘密分片分发至相应的各个聚合器,并由其进行本地聚合以及联
在大多数场景下,机器学习所需要的数据往往以表格的形式存储在数据库或者其他存储系统中。并且在机器学习的工作流中,特征工程往往是决定模型性能的关键因素之一,也是机器学习开发中最耗时的步骤之一。即使资深的专家也需要不断地迭代与试错才能找到性能较好的特征工程方案,并且受限于领域知识等原因,手动特征工程的方式很容易忽略掉一些有意义的特征。因此本文设计实现了一个面向表格数据的自动特征工程系统,以帮助数据科学家
在国际化石能源供应日益紧张与生态文明建设不断推进的背景下,实现工业废水的高效处理及能源同步回收已然成为行业的热点议题。基于传统厌氧消化工艺的厌氧膜生物反应器(anaerobic membrane bioreactor,AnMBR),在有效提升废水厌氧生物转化的同时,亦可通过膜组件的高效过滤性能减少反应器内部高活性微生物的流失,进一步提高出水品质和能源转化效率。然而,AnMBR在甲醇废水处理过程中,