基于深度学习的化合物诱变性和线粒体毒性预测

来源 :兰州大学 | 被引量 : 0次 | 上传用户:linuxedit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是一类与细胞恶性增殖密切相关的疾病,长期存在于人类历史中。常见的致癌因素包括理化致癌、生活方式致癌、激素致癌、炎症致癌和辐射致癌等。其中,化学致癌随着近年来工业的高速发展和各类化学物质在人类生活中的广泛应用,成为一大值得引起高度重视的致癌因素。因此,通过各种手段以预知一些潜在致癌的化合物就成为至关重要的一类研究。化学致癌物质的实验预测和验证早在40年前就已开始,主要方法是体外实验,但这些方法大多无法保证较高的可靠度,且在成本和通量方面受到限制。所以,基于定量构效关系,从化合物的结构信息来预测其致癌可能性就成为21世纪之后更加热门的研究领域,但这类方法也存在两个问题,一是大多数据驱动的模型在对应评价指标方面缺乏足够好的表现,二是构建模型所采用的算法大多是传统的机器学习算法,很难使预测结果得到进一步提升。与此同时,深度学习作为一种新兴的,具有强大建模能力的方法,不仅在图像,文本,音频等领域展现出超越传统方法的标签预测和信息提取能力,在化学信息学方面也已经有各方面的应用。同时,相关研究大多局限于通用性致癌数据,但化学致癌过程大多为毒性化合物引起人体病变后所致,因此需要一些额外的思路来拓展此类工作。本论文根据已有的研究,分别从两种常见的致癌相关化学毒性——诱变性和线粒体毒性的角度,结合对应的实验数据,基于多种深度学习算法建立了高精度的分类预测模型。具体包括以下内容:论文的第一章从不同层面阐释了一些我们研究相关的背景信息和研究目的。首先介绍了癌症及其治疗的相关信息,并列出了一些常见的致癌因素,其中重点介绍了化学致癌因素,之后将从上世纪末至今化学致癌作用预测和评价的相关方法进行列举,并分析了这些方法的优势和不足。随后对毒性与致癌性的关系做了介绍,又引入了深度学习的概念并简述了其发展历程,并具体解释了一些深度学习相关的专业术语和方法,结合简单的数学模型描述了常用的深度学习框架。论文的第二章研究的是基于深度学习的Ames试验诱变性预测。Ames试验是一种广泛使用的生物测定法,用于评估化学物质的诱变性。由于致癌性和诱变性之间存在密切的联系,因此迫切需要建立可靠的计算机模拟方法来预测后者,以作为耗时且昂贵的体外测试的替代方法。在这部分研究中,深度学习架构——深度神经网络(DNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)和自编码器(autoencoder),以及分子特征——ECFP4、PubChem指纹、MACCS密钥和2D化学描述符被用于诱变性分类模型的建立。我们利用Hansen等人提供的Ames试验基准数据集,按照Kennard-Stone算法进行数据分割。我们建立的最佳模型在验证集上以94.2%的准确率,97.0%的灵敏度,90.9%的特异性和88.2%的Kappa分数取得了令人满意的分类性能。此外,我们还进行了亚结构分析以识别潜在的结构警报,并基于最佳模型开发了相应的网络预测系统DeepAmes。论文的第三章研究的是基于深度学习的线粒体毒性预测。线粒体膜电位(MMP)在遭到破坏的情况下,会引发线粒体功能障碍,而相应的DNA损伤则有可能引起癌症。因此,我们在这部分的研究中关注线粒体毒性的预测。这里我们在网络结构层面只有DNN模型和上一章相同,除了ECFP4和PubChem分子指纹以及2D化学描述符外,我们还采用了3D化学描述符来检验更丰富的化学信息对模型表现的影响。数据方面,Schyman等人的工作和部分Tox21数据被用于此工作中。由于源数据为非平衡数据集,我们在这里使用SMOTE超采样方法来衡量数据平衡性对实验结果的影响,从10折交叉验证和按照4:1内部分割两方面进行比较。此外,由于使用传统的化学特征作为网络输入无法获得更进一步的结果,且过度依赖专家知识,我们引入了基于图网络的特征学习,来从图层面自动提取特征信息。具体使用的网络框架为图卷积网络(GCN)和信息传递网络(MPNN),最终均取得了较好的分类效果,其中MPNN网络的结果非常优越,在验证集上达到了0.9161的AUC值、92.25%的准确率、0.6650的MCC值和0.6507的Kappa值。我们的上述工作充分利用了深度学习在特征提取和数据分析方面的能力,建立了针对Ames试验诱变性和线粒体毒性的预测分类模型,取得了非常好的实验结果,我们的结果将有助于用于致癌相关化合物毒性的快速评估,具有较好的应用价值。
其他文献
吡唑及其衍生物作为一类重要的化合物,在农业、材料和制药领域有着广泛的应用。吡唑类化合物的合成成为有机化学研究者关注的热点之一。本论文主要包括两部分内容。第一章概
为实现对食用油加热后反式脂肪酸(Trans fatty acids,TFAs)含量的快速检测,将菜籽油、大豆油和玉米油三种食用油在190℃下(常用煎炸温度)进行不同时间(0、30、60、90、120、1
【目的】采用256排螺旋CT技术测量新生儿、婴幼儿、学龄前不同年龄段儿童脾脏大小,并分析其临床意义。【材料与方法】经过筛选,选取2018年1月至2019年12月于我院接受腹部CT检
目的:根治性肾输尿管切除加膀胱部分切除术一直被认为是治疗上尿路上皮癌的主要治疗手段,但上尿路上皮癌预后较差,术后肿瘤复发率较高,特别是术后膀胱癌复发,其危险因素尚不
目的:本研究对非动脉炎性前部缺血性视神经病变患者与健康正常人血样进行高通量测序并对其转录组数据进行分析,筛选出差异表达的LncRNA并分析其表达谱,研究LncRNA与NAION发生
目的:探索DREAM在脑缺血再灌注损伤中的作用以及DREAM是否通过调控TRPM7参与脑缺血再灌注损伤的潜在机制。方法:1)建立SD大鼠脑缺血再灌注损伤模型;2)随机将SD成年鼠分为Norm
文章以“小句中枢”为观测站,通过句管控的检视,从语表、语里和语值三个角度对现代汉语“些”进行重新审视与分析。学界认为“些”是不定量词。但是通过观察,“些”并不具备
本文主要采取共时和历时、描写和解释相结合的方法,详细考察了现代汉语中“进一步”及其相关的结构。本文一共五部分,开头和结尾分别是绪论和结语,第二、三、四章是主体章节,其主要内容可概括如下:第二章主要从共时层面出发,从语义、句法和语用三方面详细描写了“进一步”及其相关结构。语义上,“进一步”可表示肢体动作义、进展/推进义、程度加深义和递进关联义。句法上,“进一步”句法功能比较丰富,具备谓语、定语、状语
根据前景理论的反射效应,在做市商调整机制下,对市场中的两类交易者(基本面分析者和趋势追随者)同时引入时变的风险厌恶系数,扩展了异质预期下风险厌恶固定不变的资产定价模
DNA甲基化是表观遗传最基本的修饰方式,其修饰的分子本质是在胞嘧啶(Cytosine,C)的第五个碳原子上添加甲基CH_3,形成5甲基胞嘧啶(5-methyl Cytosine,5-mC)而不改变DNA序列。由于DNA甲基化对细胞分化、胚胎发育和肿瘤发生等基因表达、基因印记和基因沉默的调控作用,DNA甲基化已成为继限制性片断多态性、DNA点突变之后最具价值的第三代遗传标记。DNA甲基化是肿瘤发生中