基于大样本RNA-seq数据的茶树基因共表达网络的统计建模及其应用

来源 :安徽农业大学 | 被引量 : 1次 | 上传用户:beanmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组时代,生物分子网络建模成为探索复杂生命活动的有力工具,而其中构建基因共表达网络并进行分析是预测目标物种未知基因功能的有效方法。功能相关的基因通常在转录水平上表现出一定的协同表达,因而基因共表达网络可以直观的展示出相互连接的有相似调控机制的基因,利用已知功能的基因在基因共表达网络中进行关联推断,可以有效地预测出未知基因的功能。基因共表达网络的构建需要大量高质量的转录组测序数据,新一代测序技术的变革使得公共数据库平台积累了不同物种海量的测序数据,这为相关物种基因共表达网络的构建提供了可能。茶树近些年也累积了大量的RNA-seq数据,同时其基因组也完成了高质量组装。作为重要的茶叶来源作物,茶树中有大量未知基因的功能亟须解析,很大程度上阻碍了茶树良种选育、代谢工程等应用需要。而利用传统的实验方法进行茶树基因功能分析效率低下,现阶段迫切需要开发新的组学方法来快速精准地挖掘大量的候选基因。本文选取茶树作为研究对象,基于茶树大样本的RNA-seq数据,构建了高质量的茶树基因组范围内的基因共表达网络,以期加速茶树未知基因功能的研究。本论文完成的主要工作内容如下:(1)茶树转录组数据的收集和分析。从公共数据库检索并筛选出288个合格的茶树转录组测序样本,结合茶树基因组注释信息,将这些样本进行一套优化的转录组数据流程分析,并最终得到茶树33,932条基因在261个样本上的表达谱数据。(2)茶树基因共表达网络的统计建模。去除109条在所有样本中均不表达的基因,利用标准化后的表达谱数据,以皮尔逊相关系数度量33,823条茶基因之间的表达相关性,利用随机扰动获得表达相关分数相应的p-value,保留p-value小于0.01的具有统计学显著性的基因共表达关系对。为去除网络中低相关关系的干扰且同时保证真实生物网络的拓扑学特征(无尺度、小世界特性),引入了不同相关系数阈值下相应网络中度和度分布的统计回归拟合指数R~2以及网络的平均连通度作为评价标准,在保证R~2较高且平均连通度不低的情况下分析判定最合适的相关阈值为0.7。经过阈值筛选,最终得到了由27,158个茶树基因作为节点和2,574,341个基因对作为边构建成的茶树基因共表达网络。(3)基于随机游走算法的茶树基因共表达网络中的基因功能预测。为了更精准高效地从茶树基因共表达网络中挖掘出相关的功能基因,本文在传统的基于共表达网络相关性分析进行基因预测的方法上,引入了一种结合重启型随机游走算法分析共表达网络的方法,对茶树相关功能基因预测的结果进行重新打分排序。通过选定数据的应用比较,发现该方法在预测结果的准确性有较大的提高。(4)茶树基因共表达网络数据库平台的搭建。利用得到的基因共表达网络数据,整合茶树基因组相关注释信息,搭建了一个茶树基因共表达网络数据库平台Tea Co N(a platform of gene co-expression network for tea plant,http://teacon.wchoda.com)。利用本平台,茶研究人员可以方便地进行茶树基因共表达网络数据的浏览、检索和下载。同时,平台还开发了可视化的用于基因功能预测的相关工具,例如BLAST比对、GO和KEGG富集分析、基因组浏览(JBrowse)、表达谱可视化等。应用这些功能,本论文通过脱水素基因Cs DHN2进行了系列分析操作,证实了平台的实用性。
其他文献
随着ZigBee技术的不断发展和进步,ZigBee技术在无线传感器网络的应用中占据了首要地位,依靠其低功耗,低成本、组网能力强等特点,被广泛运用在如智能家居,户外数据采集,智能楼宇控制,工业自动化控制等方面。而ZigBee节点一般采用电池供电且电池能量有限,研究ZigBee技术的节能技术可以有效地延长网络寿命。本文介绍了ZigBee网络的拓扑结构,地址分配机制,路由协议等知识,着重研究了ZigBe
能源是人类社会发展必不可少的条件。化石燃料的日益枯竭以及由此带来的环境问题,严重威胁人类的生存和社会的进步,因此人们正致力于开发和使用清洁可再生能源。氢能因具有能
随着通信技术的飞速发展,传统的多输入多输出系统(Multi Input Multi Output,MIMO)技术已经不能满足日常通信需求。与传统MIMO技术不同,3D MIMO技术通过在基站处配置二维有源天线阵列,在水平维度的基础上增加了垂直维度信道信息,丰富了系统空间自由度,提高了系统频谱利用率,因此受到了国内外科研学者的广泛研究。传统2D MIMO预编码只在水平维度上进行,而3D MIMO预编
科学想象力是解决科学问题的必备能力和关键品格,历史上几乎所有伟大的创造发明都离不开科学想象,研究职前物理教师的科学想象力发展现状对培养未来创新人才具有重要意义。本研究通过文献梳理,完成对科学想象力的概念界定、教育价值的分析,形成本论文的理论基础。在此基础上,结合了物理学相关概念以及科学想象力的四个维度,编制出一套职前物理教师科学想象力测试问卷,在不同维度下设计相应的评价标准和表现标准,形成一套多维
烯烃结构广泛存在诸多具有生物活性的天然产物中,如白藜芦醇及其衍生物,炔烃的半还原氢化反应是构建单一构型具有生物活性的烯烃结构的有效方法,从而在有机反应中占据着非常
在生物体内分子马达通过水解ATP释放能量产生平移、旋转等运动,进行物质与能量的输运。借鉴生物马达的这些重要功能,近年来,科学工作者人工合成了结构简单的纳米马达,用于药
中国证券市场建立以来,频繁出现了股价齐涨齐跌的异象,甚至多次出现千股跌停、千股涨停的极端现象。基于行为金融学,投资者的群体性非理性行为将对股票市场产生系统性的影响,本文将投资者情绪纳入股价联动的影响因素分析中,以中国证券市场个股与市场的价格联动程度为研究对象,探究投资者情绪对其的影响程度。考虑到我国证券市场的中小投资者占比较高,且在整体投资者中,中小投资者在信息收集和分析、风险承受能力等多方面处于
随着互联网的迅猛发展,网络上的信息量大幅度增长。信息的生产和消费产生了新的矛盾:生产者难以让自己生产的信息引人关注;消费者难以寻找到自己感兴趣的信息。为解决这一矛盾,推荐算法应运而生。基于邻域的推荐算法是推荐算法领域中应用最广泛的一种,受到学术界的广泛关注和深入研究。基于用户的协同过滤算法作为基于领域的推荐算法的重要组成部分,近年来取得了众多研究成果,但是这些算法在度量用户间的相似性时,都未能合理
目的:探讨福建地区男性不育患者的勃起功能及其相关影响因素。方法:选取来福建医科大学附属第一医院男科就诊的男性不育患者136例,采用国际勃起功能问卷5(IIEF-5)评估患者的
阪崎克罗诺杆菌(Cronobactersakazakii)属肠杆菌科,克罗诺杆菌属,为革兰氏阴性菌,周生鞭毛,能运动,无芽孢,兼性厌氧,是一类能够在人和动物肠道内生存的机会性致病菌。阪崎克罗诺杆菌广泛存在于环境和食物中,通过环境接触和摄食等途径进入动物和人体。感染阪崎克罗诺杆菌可能危及新生儿、婴幼儿的生命,对老年人和免疫功能低下的成年人同样具有较强的致病性,该菌对人类危害性较大,已广泛引起人们的关