论文部分内容阅读
纳米材料由于其尺寸效应带来的独特理化性质,而被广泛应用于生物医药、环境、化工、能源、交通等诸多领域。据统计,截止到2016年,全球纳米材料相关市场的价值已经达到392亿美元,预计到2021年将达到905亿美元。此外,纳米材料在日常消费品中的使用量也不断增加,基于纳米材料的上千种民用产品已进入我们的生活,如化妆品、个人护理品等。这些产品中含有的纳米颗粒可能会脱落进入大气或水域,在环境中累积,增加进入人体的可能性。因此,典型纳米材料在环境中的行为和生物效应得到了越来越广泛的关注和研究。纳米毒理学研究自2005年起得到了越来越广泛的关注:截至2020年3月,以“nano*”和“toxic*”为关键词在Web of Science数据库中的检索文献数高达99571篇,围绕纳米材料毒性的影响因素研究与调控的工作也是不胜枚举。然而,受限于数据的收集整理方式以及大数据分析技术等因素,科研工作者们坐拥庞大的纳米生物效应大数据,却不能有效的从中提取关键信息。近年来,以机器学习(Machine Learning)和深度学习(Deep Learning)等方法为典型代表的人工智能(Artificial Intelligence,AI)在材料发现、药物设计以及医疗诊断等领域取得了丰硕的成果。机器学习的经典方法,如k近邻法(k-Nearest Neighbor,kNN)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)等,以及以卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)和对抗神经网络(Generative Adversarial Network,GAN)为代表的深度学习方法,能够使人工智能系统快速的从杂乱的大数据中挖掘关键信息。例如,在医学领域,人工智能可以快速对病灶作出检测和分类、准确预测放疗后果和放疗剂量等。很显然,在纳米研究领域,尤其在对纳米生物效应的深度解读及智能预测方面,人工智能同样具有非常广阔的应用前景。然而,目前人工智能技术,在通过构建定量纳米构效关系(Quantitative Nanostructure Activity Relationship,QNAR)模型预测纳米生物效应方面,存在两大瓶颈:(1)缺乏合适的对纳米材料结构进行表征的描述符。目前的纳米描述符可以分为实验描述符、结构描述符、经验描述符,这些描述符在应用于QNAR建模时,都有各自的不足和限制。实验描述符,如纳米材料尺寸、Zeta电位、蛋白冠“分子指纹”等,重复性差,不同的实验室往往会得到不同的测试结果。更重要的是,对于尚未合成的纳米材料,我们无法得到其实验性质,也就无法用于虚拟筛选和新纳米材料设计。而常用的纳米材料结构描述符,则是对纳米材料表面小分子配体进行计算、或者仅仅将纳米材料核成分转化为SMILES形式(如将氧化锌纳米材料转换为O=[Zn])进行计算。这些描述符的最大不足之处是,表面小分子配体以及核成分的SMILES形式很难代表纳米材料的整体性质。基于分子动力学和量子化学计算的经验描述符,会耗费大量的计算资源,无法对于像纳米材料这样的含有上万个甚至是几十万个原子的大体系进行模拟。(2)缺乏合适的可直接用于机器学习建模的纳米材料数据库。目前用于机器学习的纳米材料数据集,往往只包含很少(一般少于40个)的且基于同一类纳米材料所测试的生物效应。基于这样的数据所建立的QNAR模型,在预测新的纳米材料性质时,往往预测能力很差。另一方面,目前存在的为数不多的纳米材料数据库,在获取数据时,多为从文献中直接提取文本信息(如实验所测纳米材料的理化性质和生物效应等),而忽略了纳米材料结构的数字化。而用于存储纳米材料结构的电子文件,是连接实验和计算的“桥梁”,通过这些电子文件,我们可以对其进行可视化分析、描述符计算以及分子模拟和量化计算等。针对上述人工智能用于QNAR建模的两大瓶颈,本论文主要从以下三方面进行了相关探索:第一部分新型纳米描述符和多种机器学习方法预测纳米材料理化性质和生物效应为了解决现有纳米描述符的不足,我们开发了一种基于德劳内三角剖分(Delaunay Tessellation)和元素电负性的新型纳米描述符。德劳内三角剖分是一项很重要的面重建技术,具有“最接近于规则化的”三角网和唯一性两个特点,可以将纳米材料复杂的三维结构分割成由原子组成的四面体片段,从而完成特征提取。电负性则涵盖了原子的很多重要特性,如极性、能量以及形成氢键的能力。在本研究中,我们首先构建了虚拟纳米材料,即将纳米材料结构信息存储于PDB(Protein Data Bank)文件中。然后,将虚拟纳米结构中的原子划分为六类:C(碳)、N(氮)、O(氧)、S(硫)、M(金属原子)以及X(磷原子以及卤素原子)。接着,基于德劳内三角剖分,每四个最近邻原子(例如CCCC,CCOO等)构成一个四面体,并根据相关文献中远程静电和范德华作用的范围,将原子间可连接距离的阈值设置为8 (?)。在不考虑原子顺序的情况下,我们可以得到126种四面体片段,即126个纳米描述符。每个纳米材料中描述符的具体数值,则由描述符所对应的四面体在相应纳米材料中的数目与四面体所含四个原子的电负性之和的乘积得出。所得描述符不仅能够表征纳米材料的整体结构(如材料类型、尺寸、配体位置以及配体密度等),还具有快速高通量的计算特点,对于5 nm含超过26000个原子的金纳米颗粒,在个人台式机上可以在10秒内完成计算,并且可以批量处理超过1000个纳米材料的描述符计算。为了检验所得新型纳米描述符的有效性,我们收集了包含191个金纳米颗粒、两种理化性质(logP和Zeta电位)、三种生物效应(细胞摄入、氧化应激水平和对AChE酶的活性抑制)的七个不同数据集。利用随机森林(Random Forest,RF)和 k近邻(k-Nearest Neighbor,kNN)两种机器学习方法构建QNAR模型对上述理化性质和生物效应进行预测,所有模型的五折交叉验证和外部验证均具有很高的预测准确率(R2>0.68)。此外,所得描述符还具有明确的物理意义,可以辅助实验对效应机制作出解释。例如,我们发现含四个碳原子的CCCC描述符,在logP和细胞摄入预测模型中使用频率最高,表明CCCC描述符所代表的碳骨架结构在两个效应中起到了关键作用。第二部分基于纳米材料结构数字化的纳米生物效应数据库网站构建为弥补现有纳米材料数据库的不足,我们构建了世界首个基于纳米材料结构数字化的纳米生物效应数据库。该数据库目前包含涵盖12种材料类型(如金、银、金属氧化物、碳纳米管等)的超过700个纳米材料结构的电子文件(PDB文件),以及超过1300个理化性质数据点和超过2300个生物效应数据点。实验数据包含内部实验数据和由文献搜集得到的外部数据,内部实验数据主要由近十年、实验室通过组合化学方法所合成的纳米材料数据,外部数据则是通过筛选近1000篇文献所获得。所有实验数据和PDB文件均存储于数据库网站(http://www.pubvinas.com/)中,研究人员可以注册并登陆网站进行下载使用。数据库也允许研究人员上传新数据,从而保持数据库的动态更新。纳米材料结构的数字化,即虚拟纳米材料的构建,与研究一类似。但是,在本研究中,我们增加了更多的材料类型。所有的PDB文件,均主要由三部分构成,一部分存储纳米材料结构的基本信息(如纳米材料类型、尺寸、配体密度等),一部分存储原子类型和原子坐标信息,最后一部分则存储原子之间的连接信息。通过这些PDB文件,我们可以对纳米材料结构进行可视化分析、纳米描述符计算、分子动力学模拟甚至是量子化学计算等。在本研究中,我们将不同的纳米材料呈现在统一的标尺下,可以很直观的看到纳米材料结构在材料类型、尺寸、形状和表面配体等方面存在的差异。此外,纳米材料的不同表面化学性质在图上呈现出不同的颜色。例如,带有疏水配体的PdNP12纳米颗粒(logP=2.52)在图上显示为青色,而带有亲水配体的PtNP8(logP=-1.47)在图上显示为紫色。其它结构细节也可以从图中观察到,例如,由于GNP164的表面配体有很长的碳链结构,因此在图上显示有很长的“触角”。通过这些PDB文件所产生的纳米结构的详细三维图像,为我们提供了有关纳米材料表面化学和理化性质的直观印象。此外,数据库包含数十个不同的纳米材料效应终点,所有效应终点数值都有很广泛的范围分布。丰富的纳米材料理化性质和生物效应终点数据,为机器学习建模奠定了基础。在本研究中,我们进一步改进了研究一中的纳米描述符,使其能够适合于除金纳米材料之外的其它纳米材料。相关改进包括将四面体数目转化为百分比,从而消除由纳米材料尺寸所带来的描述符之间的巨大差异;增加除电负性外的更多元素性质,使描述符能够对多种纳米材料结构进行区分。也正是基于这样的改进,我们开发的描述符能对数据库中的几乎所有纳米材料结构进行区分,通过计算欧式距离(Euclidean Distance),我们可以定量分析所有纳米材料结构之间的相似性。利用经典的机器学习方法和深度学习方法,我们对多种纳米材料的不同理化性质和生物效应进行了准确预测。第三部分虚拟碳纳米颗粒库和机器学习分析雾霾毒性初探长期暴露于含有PM2.5的空气中,会导致严重的不良健康后果,包括缺血性心脏病、中风、慢性阻塞性肺疾病、呼吸道感染,甚至是肺癌。根据2016年全球疾病负担(The Global Burden of Disease,GBD)的一项研究统计,PM2.5暴露是全球导致早期死亡的第六大原因,仅2016年,因PM2.5暴露导致的全球死亡人数多达410万。因此,迫切需要识别PM2.5中的关键毒性成分并了解相关的毒性机理。但是,PM2.5是由不同成分组成的复杂混合物,其中包括数百种有机、无机和生物污染物。此外,PM2.5的成分随时间和地区的不同而不断变化,这无疑给毒性实验机制研究带来了极大地的困难。在实验室之前的研究中,我们已经利用“还原论”的方法,合成了吸附多种污染物(Cr2O72-、Pb2+、As2O3以及BaP)的碳纳米颗粒库,并对其引起的细胞炎症进行了测试,以此来阐明PM2.5的相关毒性机制。但是,考虑到PM2.5的复杂组成,我们不可能对所有的组合都一一进行合成,并测试其生物毒性。因此,在这部分内容中,我们借助第二章和第三章所构建的新型纳米描述符和纳米结构数字化方法,以及机器学习等人工智能技术,来辅助实验对PM2.5引起的细胞毒性进行预测,并探讨可能的毒性机制。在这一章节的研究中,我们共构建了五个数据集,其中四个数据集为16HBE细胞系中的四种不同炎症响应,收集自我们之前已发表的文献;另一个为细胞毒性数据集,通过测试16HBE细胞系下的EC50值得出。所用纳米材料为20个吸附不同污染物组合的碳纳米颗粒(即模型颗粒物),粒径为40 nm,所吸附污染物的量与采集自山东济南的真实雾霾(PM2.5-JN)中的含量在相同数量级;测试所得Zeta电位以及水合粒径等理化性质也与PM2.5-JN测试值相似,表明模型颗粒物可以很好的模拟真实雾霾。根据碳纳米颗粒的实验数据,并利用第二章、第三章中的纳米结构数字化方法,我们构建了 20个相应的虚拟碳纳米颗粒。利用这些虚拟碳纳米结构,我们计算得到了 126个能够对碳纳米结构进行定量表征的纳米描述符,主成分分析发现这些描述符能够很好地对模型颗粒物进行区分。随机森林和k近邻法构建的机器学习模型能够对四种炎症响应和EC50值做出准确预测,所得预测值和实验值的拟合系数均在0.65以上。更重要的是,通过分析模型结果,我们对PM2.5可能的毒性机制进行了分析,发现Pb2+是引起炎症响应的重要因素,而Cr(Ⅵ)则是导致细胞死亡的关键因素。这一部分研究所得数据也已经补充更新至我们在第三章节所创建的数据库中。总之,通过三部分研究,我们构建了一种适用于多种纳米材料的新型纳米描述符,以及一个包含纳米材料结构电子文件的可以直接用于机器学习的纳米材料数据库,并将新型纳米描述符和纳米结构数字化方法应用于PM2.5毒性预测以及毒性机制分析。以上研究,可以使人工智能更好的应用于纳米研究领域,来指导纳米材料的安全评估和新型纳米材料的筛选设计。