【摘 要】
:
细菌在次级代谢过程中产生的天然产物具有丰富的化学结构和生物活性,包含着抗生素、抗癌药物和抗病毒药物等多种类型的小分子候选药物,是开展新型药物研发的重要资源。在细菌基因组中,编码各种天然产物合成的基因以生物合成基因簇(Biosynthetic Gene Cluster,BGC)的形式存在,为从序列到表型的天然产物发掘奠定了理论基础。近年来,测序技术的进步导致细菌基因组数据飞速扩增,推动了BGC预测工
论文部分内容阅读
细菌在次级代谢过程中产生的天然产物具有丰富的化学结构和生物活性,包含着抗生素、抗癌药物和抗病毒药物等多种类型的小分子候选药物,是开展新型药物研发的重要资源。在细菌基因组中,编码各种天然产物合成的基因以生物合成基因簇(Biosynthetic Gene Cluster,BGC)的形式存在,为从序列到表型的天然产物发掘奠定了理论基础。近年来,测序技术的进步导致细菌基因组数据飞速扩增,推动了BGC预测工具的发展。但受限于传统算法,现有工具在预测精度和泛化能力上仍待提高,无法为日益增长的天然产物研究需求提供有效的技术支持。在深入剖析现有工具的缺陷和细菌BGC预测的难点后,本文基于深度学习和自然语言处理方法,提出了一种能够在蛋白质结构域水平进行BGC挖掘的二分类BGC预测模型BGC-Deep Finder,和一种能够直接识别BGC产物类型的多分类BGC预测模型BGC-Deep Classifier。在具体研究过程中,本文首先基于蛋白质结构域对BGC样本和基因组文本进行序列化表示,构建了正负训练集。其次,基于word2vec算法设计了一种结构域联合嵌入算法,根据上下文关系和超家族信息将不同的结构域编号嵌入为低维稠密的联合向量,实现了序列语义的分布式数字化表示。然后,基于同义词替换思想设计了一种BGC数据增强算法,根据序列相似度定义结构域的同义词关系,将原始BGC序列中的少量结构域随机替换为同义结构域,来生成模拟BGC序列,缓解了正类样本数量匮乏的限制。最后,基于网格搜索和交叉验证对多种网络连接结构下的模型预测性能展开比较,确定采用稠密连接的堆叠双向长短期记忆网络作为核心结构来增加特征提取的稳健性,实现了上述模型。在利用一套注释了341个BGCs的标准细菌基因组数据集开展的性能测试中,本文设计的两种BGC预测模型在不同评价指标下的预测表现均优于当前领先的Cluster Finder和Deep BGC。尤其是BGC-Deep Finder始终保持着最高预测精度,在结构域水平预测的F1分数分别提升了12.1%和5.8%,在最高重叠度阈值下BGC位置预测的F1分数分别提升了19.5%和7.7%,在新型BGC预测上的平均AUC分别提升了9.3%和3.1%。进一步,在来自NCBI数据库的4,000个细菌基因组中,BGCDeep Finder和BGC-Deep Classifier共同识别到了167个未被基准工具捕获的高质量候选BGC。在对其中抗细菌活性得分排在首位的候选BGC进行功能注释后,相关结果一致暗示着该序列编码一种新型抗生素的生物合成潜力。总体而言,上述结果充分验证了BGC-Deep Finder和BGC-Deep Classifier领先的细菌BGC预测性能,证实了本文工作在天然产物药物研发上的应用价值,揭示了利用深度学习在天然产物发掘领域开展更广阔探索的可行性。
其他文献
水电机组运行灵活,在电力系统日内调峰优化中发挥着关键作用;同时,水电系统约束与目标复杂,使短期优化调度极具挑战性。本文提出了一种基于混合整数线性规划的不定次序切负荷电力电量平衡算法;进而,加入梯级水库间的复杂水力、电力联系,构建了一个梯级水库群短期调度分级模型;并在此基础上,考虑风电、光伏的优先消纳政策,通过模拟调度,分析了风光并网对水电运行方式的影响。论文的主要研究内容和成果包括:(1)提出了不
激光诱导放电等离子推力器(Laser-assisted pulsed plasma thruster,LAPPT)综合了激光推进技术和电磁推进技术的优点,在具有低成本、高比冲特性的同时,存在实现大范围冲量调控的可能性。本文设计了一种适用于多工质的LAPPT,对其工作特性和推进性能进行了系统地研究。首先,对激光作用不同工质的等离子体特性进行了研究。使用增强电荷耦合器件对激光等离子羽辉进行成像,并对激
实验目的:间充质干细胞作为胶质瘤微环境中重要的组成部分,在胶质瘤的发展侵袭过程中起到了重要的作用。最近研究表明人脑胶质瘤相关的间充质干细胞存在特殊的情况下与血管周细胞转化的作用关系,从而促进胶质瘤的血管生成。然而,其生物特性以及相关分子机制和信号通路尚未被完全了解,因此,我们使用特定条件来模拟胶质瘤微环境,从而研究间充质干细胞在肿瘤发展过程中的机制。实验方法:从人脑胶质瘤标本中提取相关间充质干细胞
随着城市轨道交通的发展,地铁正逐渐成为城市交通运输的中坚力量,地铁隧道结构的健康服役对城市的正常运转至关重要。地铁盾构隧道作为超长线状结构,采用传统的健康监测方法面临着传感器需求量过大、监测点布设复杂、经济成本高、全覆盖监测困难等局限性,因此本文将桥梁健康监测领域的研究热点——间接测量法引入到盾构隧道结构中,从理论推导、数值模拟和试验验证等方面,研究基于间接测量法的盾构隧道结构模态和损伤识别,主要
活络轮胎模具的传热过程直接影响到轮胎硫化成型的质量与效率。由于活络轮胎模具结构的复杂性,难以直接对轮胎模具温度分布进行准确测量。采用仿真技术可以对轮胎模具传热过程进行精确建模,有效预测轮胎模具温度变化与分布,指导轮胎模具结构优化,提高轮胎模具设计质量与效率。本文系统开展了活络轮胎模具预热过程仿真建模与分析研究,主要研究工作如下。首先对活络轮胎模具结构与传热过程进行了分析,建立了轮胎模具的有限元瞬态
CO2既是主要的温室气体,同时也是储量丰富、廉价易得的碳资源。将CO2转化为能源化学品是一种解决能源短缺与环境问题的可持续发展路线之一。CO2催化加氢制取甲烷是一种有前景的CO2转化利用技术,其关键是制备经济高效的催化剂。以镍为活性金属的催化剂得到广泛研究,但存在着高温下容易烧结团聚、反应机理尚不明确等问题。据此,本文主要从以下几方面进行研究:SSZ-13分子筛具有良好的孔道结构及优异的水热稳定性
光学各向异性是制造偏振器、波片和相位匹配等元件的基础,研究其对偏振敏感的光探测和光发射器件也有着重要的意义。近年来,有机无机杂化钙钛矿因其简单的合成过程和优异的光学性能而引起人们广大的关注。其中三维和二维钙钛矿被广泛研究,而一维钙钛矿却鲜有报道。一维钙钛矿同时具有优异的光学性能和大的各向异性,为了设计和优化基于一维钙钛矿的偏振光电器件,本文主要研究了一维钙钛矿的光学各向异性,主要内容如下:首先,本
目的本研究主要探索肝窦内皮细胞(Liver sinusoidal endothelial cells,LSECs)在生理状态下和模式识别受体(Pattern recognition receptors,PRRs)信号通路活化的状态下对肝内自然杀伤细胞(Natural killer cells,NK cells)的免疫调控作用,明确LSECs对NK细胞表型和功能的影响及其具体作用机制。方法1、常规方
我国现处于迅猛发展阶段,武汉市作为GDP全国排名前10的城市,城市化进展迅速。一方面这一态势正在剧烈地改变着城市下垫面的属性和城市形态特征,从而影响区域的陆气过程,这些都是导致城市热岛、城市高温化的重要因素;另一方面,城市作为人类的集中聚集地,高强度、高密度的人类活动会带来区域不同类型人为热量的大量释放,加剧城市微气候的变化,这同样会使得城市高温化趋势越来越明显,城市热岛效应问题日益严重。总结估算
数据流量的爆炸式增长对先进光纤通信网络的质量提出了更高的要求。对光纤通信网络中的光学波导器件进行高精度地传感测试变得尤为重要,基于白光干涉技术的光纤传感系统有着微米级别的空间分辨率,进行传感测量时具有得天独厚的优势。同时,通信系统的安全性也不容忽视,基于白光干涉技术的光纤通信系统不仅提高了通信的安全性,更是实现了数据传输的隐匿性。为了满足光纤通信系统中高精度传感与数据传输安全性的需求,本文对基于白