【摘 要】
:
DNA模体发现是在给定的DNA序列数据集中识别保守的序列模式,一般用于定位DNA序列中的转录因子结合位点,有助于研究基因的表达调控机制。Ch IP-seq等DNA序列数据集含有数千及以上的序列,相对于传统的小规模数据集,对模体发现提出了新的挑战。近年来DNA模体数据库正公布着越来越多的已验证的模体,可以为模体发现提供一些先验知识,但目前还没有被应用于模体发现的过程。本文提出了一种结合模体数据库的D
论文部分内容阅读
DNA模体发现是在给定的DNA序列数据集中识别保守的序列模式,一般用于定位DNA序列中的转录因子结合位点,有助于研究基因的表达调控机制。Ch IP-seq等DNA序列数据集含有数千及以上的序列,相对于传统的小规模数据集,对模体发现提出了新的挑战。近年来DNA模体数据库正公布着越来越多的已验证的模体,可以为模体发现提供一些先验知识,但目前还没有被应用于模体发现的过程。本文提出了一种结合模体数据库的DNA序列大数据集模体发现方法MLMD,基本思路是:生成一批初始模体,设计模体匹配模型将各个初始模体与模体数据库中的模体进行匹配,若匹配成功,则直接将匹配到的模体作为一个识别出的模体,否则对此初始模体进行求精,并将求精后的模体作为一个识别出的模体。具体而言,首先,设计了适用于大数据集的高效初始模体生成方法,将大的数据集分为小的样本集,分别对每个样本集提取相似子串对,并利用邻接表快速提取相似的子串对,再经过合并相邻子串、聚类等操作得到一批初始模体;其次,构建了基于深度学习的模体匹配模型,先结合模体求精方法生成训练模型的样本数据集,再训练基于卷积神经网络的模体匹配模型,用于预测初始模体与已有模体数据库中的模体是否匹配;最后,设计了针对大数据集的轻量化迭代的模体求精方法,利用优先队列改进基于期望最大化的模体求精过程,在迭代过程中逐步去除参与计算的背景子串,从而有效提高求精的性能。实验结果表明:1)所构建的模体匹配模型的平均预测准确率达到了90%左右,在真实小鼠数据集上的验证结果表明,使用匹配模型可以成功匹配到数据集中约80%的模体,同时相比不引入匹配模型的方法,平均加速比达到了2.6;2)轻量化迭代的模体求精方法能够得到与基于期望最大化的模体求精方法相近的结果,在此基础上加速比达到了6.7;3)与现有权威的DNA模体发现算法在不同数据集下相比,在保证平均准确率相当的基础上,MLMD的时间性能有显著提升。
其他文献
为了探究不同强度UV-B胁迫对紫花苜蓿的影响,本研究采用蛋白质组学核心技术(即双向凝胶电泳和MALDI-TOF-MS质谱鉴定)对UV-B胁迫下紫花苜蓿叶片差异表达蛋白质进行分析鉴定,以期发现一些可能作为紫花苜蓿抗UV-B的潜在靶标蛋白。通过对差异表达蛋白质种类和功能分析,初步揭示苜蓿叶片响应UV-B胁迫的调控网络。该研究中获取的差异表达蛋白可以用于指导UV-B胁迫相关基因的克隆,为提高植物UV-B
N末端乙酰化(N-terminal acetylation,NTA)是真核生物中重要的蛋白质修饰类型。NTA主要为共翻译修饰,通过在N端氨基上附加一个乙酰基,其N端电荷、疏水性和蛋白质分子量大小发生不可逆转的改变,这种改变对靶蛋白的寿命、折叠特性和结合特性都有影响。NTA是由一系列进化保守的N末端乙酰转移酶(N-terminal acetyltransferases,Nats)催化完成的,由乙酰辅
青枯病(Bacterial wilt)是马铃薯(Solanum tuberosum)生产中严重的病害。SRF是一种亮氨酸重复类受体激酶(LRR-RLK),在生长发育、感受生物与非生物胁迫及免疫应答等过程中发挥着关键作用。SRF的研究主要集中于拟南芥,然而对马铃薯SRF基因家族了解非常有限。本研究首先利用生物信息学方法从进化树、基因结构、保守结构域、共线性、染色体定位、启动子分析以及热图等多方面对马
马铃薯(Solanum tuberosum)的生产严重受到青枯病(Bacterial wilt)的威胁,青枯病由青枯菌(Ralstonia solanacearum)引起。RIN4(RPM1-interacting protein 4)已被证明是一种重要的免疫调节因子,被多种致病效应子靶向,受到不同免疫受体的保护。有关RIN4的研究集中在功能的信号转导机制、细菌效应子对RIN4的修饰以及在防御相关
农业管理措施轮作已在许多国家和作物中流行,而小麦(Triticum aestivum L.)/玉米(Zea mays L.)轮作是中国粮食作物主要种植模式之一。目前,对小麦/玉米轮作根际土壤理化性质变化、土壤微生物差异和病原微生物发病及防治措施等仍缺乏全面的了解。本研究以小麦/玉米长年轮作田作物根际土壤为材料,比较土壤理化性质和根际微生物群落差异,借助高通量测序技术分析小麦/玉米根际微生物多样性,
地表蒸散(Evapotranspiration,ET)作为地表与大气进行水热交换的主要途径,是全球水循环过程的重要组分,对全球气候变化有着显著影响。彭曼模型(Penman-Monteith,PM)是估算地表蒸散的常用模型,它对空气动力学理论和能量平衡理论进行了融合,具有精度高、稳健性强等优点。但是,其结果对表面导度(Surface Conductance,Gs)具有较强的敏感性,而该参数难以直接观
相较于传统彩色图像,高光谱图像不仅存储了所拍摄目标的空间分布信息,还存储了目标的光谱信息,能够用于区分物体之间细微的差异,因此高光谱图像在目标检测等计算机视觉领域有着重大的作用。在实际应用方面高光谱图像可以用于战场上,对敌方伪装目标进行检测,实现战场环境的准确感知;用于医学中,可以检测肿瘤组织,为病理医生提供分析结果。但是由于成像光谱技术的逐渐成熟,获取的高光谱图像的光谱分辨率不断提升,与此同时它
随着计算机性能的提高和大数据时代的到来,深度学习的应用越来越广泛。目前,多个公司都研发了深度学习框架,常见的深度学习框架有PyTorch、Tensorflow、Caffe、Mind Spore等。由于开源网站提供的深度学习模型所使用的开源框架与使用者的框架存在一定的差异性,学者无法直接使用已训练好的深度学习模型。针对这个问题,开源社区提出了一种神经网络表示标准:ONNX(Open Neural N
随着大数据技术及人工智能的蓬勃发展,人们可以通过各类新型媒体获取海量资源。但太多的内容会造成信息冗余,用户难以在短时间内获取真正感兴趣的信息,个性化推荐系统由此产生,成为联系用户和媒体不可或缺的工具。推荐最关键的是准确地捕捉用户的兴趣,但用户在不同阶段会有不同的兴趣。传统的推荐算法大部分对用户兴趣的挖掘不够深入,没有充分利用用户历史行为,显然丢失了很多信息,最终给用户呈现的内容不够准确。本文针对传
近年来,随着科学技术的不断发展,物联网跨过了艰难的概念普及阶段并且备受各个行业推崇,物联网平台变得越来越重要,多家互联网公司纷纷投入其中并且推出了自家的物联网平台产品。从功能性和非功能性角度来看,相关平台产品接入设备种类繁杂,附加学习成本高,传统工业化企业应用困难。如何保证工业设备实时接入、实时采集传输与存储数据、简化平台部署流程、提高平台的可靠性、改进传统单体架构的不足仍然是当前物联网产品需要考