大数据和人工智能技术在定量纳米构效关系建模中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:zyf20011027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纳米材料由于其尺寸效应带来的独特理化性质,而被广泛应用于生物医药、环境、化工、能源、交通等诸多领域。据统计,截止到2016年,全球纳米材料相关市场的价值已经达到392亿美元,预计到2021年将达到905亿美元。此外,纳米材料在日常消费品中的使用量也不断增加,基于纳米材料的上千种民用产品已进入我们的生活,如化妆品、个人护理品等。这些产品中含有的纳米颗粒可能会脱落进入大气或水域,在环境中累积,增加进入人体的可能性。因此,典型纳米材料在环境中的行为和生物效应得到了越来越广泛的关注和研究。纳米毒理学研究自2005年起得到了越来越广泛的关注:截至2020年3月,以“nano*”和“toxic*”为关键词在Web of Science数据库中的检索文献数高达99571篇,围绕纳米材料毒性的影响因素研究与调控的工作也是不胜枚举。然而,受限于数据的收集整理方式以及大数据分析技术等因素,科研工作者们坐拥庞大的纳米生物效应大数据,却不能有效的从中提取关键信息。近年来,以机器学习(Machine Learning)和深度学习(Deep Learning)等方法为典型代表的人工智能(Artificial Intelligence,AI)在材料发现、药物设计以及医疗诊断等领域取得了丰硕的成果。机器学习的经典方法,如k近邻法(k-Nearest Neighbor,kNN)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)等,以及以卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)和对抗神经网络(Generative Adversarial Network,GAN)为代表的深度学习方法,能够使人工智能系统快速的从杂乱的大数据中挖掘关键信息。例如,在医学领域,人工智能可以快速对病灶作出检测和分类、准确预测放疗后果和放疗剂量等。很显然,在纳米研究领域,尤其在对纳米生物效应的深度解读及智能预测方面,人工智能同样具有非常广阔的应用前景。然而,目前人工智能技术,在通过构建定量纳米构效关系(Quantitative Nanostructure Activity Relationship,QNAR)模型预测纳米生物效应方面,存在两大瓶颈:(1)缺乏合适的对纳米材料结构进行表征的描述符。目前的纳米描述符可以分为实验描述符、结构描述符、经验描述符,这些描述符在应用于QNAR建模时,都有各自的不足和限制。实验描述符,如纳米材料尺寸、Zeta电位、蛋白冠“分子指纹”等,重复性差,不同的实验室往往会得到不同的测试结果。更重要的是,对于尚未合成的纳米材料,我们无法得到其实验性质,也就无法用于虚拟筛选和新纳米材料设计。而常用的纳米材料结构描述符,则是对纳米材料表面小分子配体进行计算、或者仅仅将纳米材料核成分转化为SMILES形式(如将氧化锌纳米材料转换为O=[Zn])进行计算。这些描述符的最大不足之处是,表面小分子配体以及核成分的SMILES形式很难代表纳米材料的整体性质。基于分子动力学和量子化学计算的经验描述符,会耗费大量的计算资源,无法对于像纳米材料这样的含有上万个甚至是几十万个原子的大体系进行模拟。(2)缺乏合适的可直接用于机器学习建模的纳米材料数据库。目前用于机器学习的纳米材料数据集,往往只包含很少(一般少于40个)的且基于同一类纳米材料所测试的生物效应。基于这样的数据所建立的QNAR模型,在预测新的纳米材料性质时,往往预测能力很差。另一方面,目前存在的为数不多的纳米材料数据库,在获取数据时,多为从文献中直接提取文本信息(如实验所测纳米材料的理化性质和生物效应等),而忽略了纳米材料结构的数字化。而用于存储纳米材料结构的电子文件,是连接实验和计算的“桥梁”,通过这些电子文件,我们可以对其进行可视化分析、描述符计算以及分子模拟和量化计算等。针对上述人工智能用于QNAR建模的两大瓶颈,本论文主要从以下三方面进行了相关探索:第一部分新型纳米描述符和多种机器学习方法预测纳米材料理化性质和生物效应为了解决现有纳米描述符的不足,我们开发了一种基于德劳内三角剖分(Delaunay Tessellation)和元素电负性的新型纳米描述符。德劳内三角剖分是一项很重要的面重建技术,具有“最接近于规则化的”三角网和唯一性两个特点,可以将纳米材料复杂的三维结构分割成由原子组成的四面体片段,从而完成特征提取。电负性则涵盖了原子的很多重要特性,如极性、能量以及形成氢键的能力。在本研究中,我们首先构建了虚拟纳米材料,即将纳米材料结构信息存储于PDB(Protein Data Bank)文件中。然后,将虚拟纳米结构中的原子划分为六类:C(碳)、N(氮)、O(氧)、S(硫)、M(金属原子)以及X(磷原子以及卤素原子)。接着,基于德劳内三角剖分,每四个最近邻原子(例如CCCC,CCOO等)构成一个四面体,并根据相关文献中远程静电和范德华作用的范围,将原子间可连接距离的阈值设置为8 (?)。在不考虑原子顺序的情况下,我们可以得到126种四面体片段,即126个纳米描述符。每个纳米材料中描述符的具体数值,则由描述符所对应的四面体在相应纳米材料中的数目与四面体所含四个原子的电负性之和的乘积得出。所得描述符不仅能够表征纳米材料的整体结构(如材料类型、尺寸、配体位置以及配体密度等),还具有快速高通量的计算特点,对于5 nm含超过26000个原子的金纳米颗粒,在个人台式机上可以在10秒内完成计算,并且可以批量处理超过1000个纳米材料的描述符计算。为了检验所得新型纳米描述符的有效性,我们收集了包含191个金纳米颗粒、两种理化性质(logP和Zeta电位)、三种生物效应(细胞摄入、氧化应激水平和对AChE酶的活性抑制)的七个不同数据集。利用随机森林(Random Forest,RF)和 k近邻(k-Nearest Neighbor,kNN)两种机器学习方法构建QNAR模型对上述理化性质和生物效应进行预测,所有模型的五折交叉验证和外部验证均具有很高的预测准确率(R2>0.68)。此外,所得描述符还具有明确的物理意义,可以辅助实验对效应机制作出解释。例如,我们发现含四个碳原子的CCCC描述符,在logP和细胞摄入预测模型中使用频率最高,表明CCCC描述符所代表的碳骨架结构在两个效应中起到了关键作用。第二部分基于纳米材料结构数字化的纳米生物效应数据库网站构建为弥补现有纳米材料数据库的不足,我们构建了世界首个基于纳米材料结构数字化的纳米生物效应数据库。该数据库目前包含涵盖12种材料类型(如金、银、金属氧化物、碳纳米管等)的超过700个纳米材料结构的电子文件(PDB文件),以及超过1300个理化性质数据点和超过2300个生物效应数据点。实验数据包含内部实验数据和由文献搜集得到的外部数据,内部实验数据主要由近十年、实验室通过组合化学方法所合成的纳米材料数据,外部数据则是通过筛选近1000篇文献所获得。所有实验数据和PDB文件均存储于数据库网站(http://www.pubvinas.com/)中,研究人员可以注册并登陆网站进行下载使用。数据库也允许研究人员上传新数据,从而保持数据库的动态更新。纳米材料结构的数字化,即虚拟纳米材料的构建,与研究一类似。但是,在本研究中,我们增加了更多的材料类型。所有的PDB文件,均主要由三部分构成,一部分存储纳米材料结构的基本信息(如纳米材料类型、尺寸、配体密度等),一部分存储原子类型和原子坐标信息,最后一部分则存储原子之间的连接信息。通过这些PDB文件,我们可以对纳米材料结构进行可视化分析、纳米描述符计算、分子动力学模拟甚至是量子化学计算等。在本研究中,我们将不同的纳米材料呈现在统一的标尺下,可以很直观的看到纳米材料结构在材料类型、尺寸、形状和表面配体等方面存在的差异。此外,纳米材料的不同表面化学性质在图上呈现出不同的颜色。例如,带有疏水配体的PdNP12纳米颗粒(logP=2.52)在图上显示为青色,而带有亲水配体的PtNP8(logP=-1.47)在图上显示为紫色。其它结构细节也可以从图中观察到,例如,由于GNP164的表面配体有很长的碳链结构,因此在图上显示有很长的“触角”。通过这些PDB文件所产生的纳米结构的详细三维图像,为我们提供了有关纳米材料表面化学和理化性质的直观印象。此外,数据库包含数十个不同的纳米材料效应终点,所有效应终点数值都有很广泛的范围分布。丰富的纳米材料理化性质和生物效应终点数据,为机器学习建模奠定了基础。在本研究中,我们进一步改进了研究一中的纳米描述符,使其能够适合于除金纳米材料之外的其它纳米材料。相关改进包括将四面体数目转化为百分比,从而消除由纳米材料尺寸所带来的描述符之间的巨大差异;增加除电负性外的更多元素性质,使描述符能够对多种纳米材料结构进行区分。也正是基于这样的改进,我们开发的描述符能对数据库中的几乎所有纳米材料结构进行区分,通过计算欧式距离(Euclidean Distance),我们可以定量分析所有纳米材料结构之间的相似性。利用经典的机器学习方法和深度学习方法,我们对多种纳米材料的不同理化性质和生物效应进行了准确预测。第三部分虚拟碳纳米颗粒库和机器学习分析雾霾毒性初探长期暴露于含有PM2.5的空气中,会导致严重的不良健康后果,包括缺血性心脏病、中风、慢性阻塞性肺疾病、呼吸道感染,甚至是肺癌。根据2016年全球疾病负担(The Global Burden of Disease,GBD)的一项研究统计,PM2.5暴露是全球导致早期死亡的第六大原因,仅2016年,因PM2.5暴露导致的全球死亡人数多达410万。因此,迫切需要识别PM2.5中的关键毒性成分并了解相关的毒性机理。但是,PM2.5是由不同成分组成的复杂混合物,其中包括数百种有机、无机和生物污染物。此外,PM2.5的成分随时间和地区的不同而不断变化,这无疑给毒性实验机制研究带来了极大地的困难。在实验室之前的研究中,我们已经利用“还原论”的方法,合成了吸附多种污染物(Cr2O72-、Pb2+、As2O3以及BaP)的碳纳米颗粒库,并对其引起的细胞炎症进行了测试,以此来阐明PM2.5的相关毒性机制。但是,考虑到PM2.5的复杂组成,我们不可能对所有的组合都一一进行合成,并测试其生物毒性。因此,在这部分内容中,我们借助第二章和第三章所构建的新型纳米描述符和纳米结构数字化方法,以及机器学习等人工智能技术,来辅助实验对PM2.5引起的细胞毒性进行预测,并探讨可能的毒性机制。在这一章节的研究中,我们共构建了五个数据集,其中四个数据集为16HBE细胞系中的四种不同炎症响应,收集自我们之前已发表的文献;另一个为细胞毒性数据集,通过测试16HBE细胞系下的EC50值得出。所用纳米材料为20个吸附不同污染物组合的碳纳米颗粒(即模型颗粒物),粒径为40 nm,所吸附污染物的量与采集自山东济南的真实雾霾(PM2.5-JN)中的含量在相同数量级;测试所得Zeta电位以及水合粒径等理化性质也与PM2.5-JN测试值相似,表明模型颗粒物可以很好的模拟真实雾霾。根据碳纳米颗粒的实验数据,并利用第二章、第三章中的纳米结构数字化方法,我们构建了 20个相应的虚拟碳纳米颗粒。利用这些虚拟碳纳米结构,我们计算得到了 126个能够对碳纳米结构进行定量表征的纳米描述符,主成分分析发现这些描述符能够很好地对模型颗粒物进行区分。随机森林和k近邻法构建的机器学习模型能够对四种炎症响应和EC50值做出准确预测,所得预测值和实验值的拟合系数均在0.65以上。更重要的是,通过分析模型结果,我们对PM2.5可能的毒性机制进行了分析,发现Pb2+是引起炎症响应的重要因素,而Cr(Ⅵ)则是导致细胞死亡的关键因素。这一部分研究所得数据也已经补充更新至我们在第三章节所创建的数据库中。总之,通过三部分研究,我们构建了一种适用于多种纳米材料的新型纳米描述符,以及一个包含纳米材料结构电子文件的可以直接用于机器学习的纳米材料数据库,并将新型纳米描述符和纳米结构数字化方法应用于PM2.5毒性预测以及毒性机制分析。以上研究,可以使人工智能更好的应用于纳米研究领域,来指导纳米材料的安全评估和新型纳米材料的筛选设计。
其他文献
社会主义法治文化是中国特色社会主义文化的重要组成部分,是社会主义法治国家建设的重要支撑。充分挖掘我国各少数民族特色文化资源,推进民族地区法治文化阵地建设,对于铸牢中华民族共同体意识、建设中国特色社会主义法治体系及建设社会主义法治国家具有十分重要的现实意义。习近平总书记在党的十九大报告中强调,要努力让人民群众在每一个司法案件中感受到公平正义。这就要求我们自觉践行社会主义核心价值观和社会主义法治理念,
学位
煤炭在我国的能源结构中占主体地位。出于经济转型和环境保护的目的,气化技术作为煤炭清洁高效利用核心手段,近年来得到了快速发展。煤中矿物和潜在有害微量元素是煤中的主要杂质,它们在煤炭利用过程中的转化和排放主要集中在煤燃烧领域,而在气化过程中的行为研究系统性相对不足。商业煤气化的快速发展产生了大量煤气化废渣。煤气化残渣的高产量和低利用率促使填埋场堆积成为主要处置方式,导致其具有一定的潜在环境污染和健康危
学位
手性化合物广泛存在于天然产物、生物活性分子中,是合成各种药物的重要中间体,但是由于不对称合成面临实验条件苛刻、产率低以及产物分离难等不利因素给科研工作者们在合成手性化合物中带来巨大的挑战。近年来,利用光介导的光氧化还原/过渡金属协同催化不对称C-C/C-X(X=N,O,S)偶联反应实现手性化合物的合成取得了突破性的进展。然而,目前的实验仪器很难准确全面地捕获反应过程中相关活性中间体,此类反应机制和
学位
一、海洋新型噬菌体MfV的发现海洋中病毒数量丰富,且其丰度占全部生物体丰度的94%之多。但相比于海洋中的细菌来说,人们对于病毒的多样性、宿主范围和在海洋生态系统中所发挥的作用等知之甚少。虽然通过宏基因组测序能够得到很多海洋病毒的基因组序列,但其中的大部分病毒还未被分离和培养得到,对于它们的结构和性质也无从研究。因此,分离、培养和鉴定海洋中的新型病毒并对其性质进行研究,对于拓宽人们对海洋病毒的认识和
学位
胶海关是中国政府设置在外国租界地的第一个海关。在外籍税务司制度管理下的胶海关缉私活动对清末胶州地区走私起到了一定抑制作用,其在打击口岸走私活动的同时规范了海关的进出口秩序。华人华商走私与胶海关缉私的矛盾关系揭示了隐藏其中的多层社会问题,胶州人民的自发缉私斗争揭示了胶州地区人民在封建势力与帝国主义双重剥削下的艰难生存困境,从中可以理解国家政权强弱与缉私盛衰的辩证关系,进而树立和强化海关捍卫国家权益、
期刊
This study intends to investigate the determinant factors of Indonesia’s import from China.Furthermore,to support the investigation,this also will use several factors of international trade that deal
学位
研究背景尿路感染(urinary tract infection,UTI)是临床常见的感染性疾病。根据其解剖部位可分为上尿路感染及下尿路感染,根据其病程特点还可分为急性尿路感染、慢性尿路感染和复发性尿路感染等。尿道的解剖特点决定了其与外界环境相沟通,为细菌入侵提供了方便的途径。通过尿液的排空、抗菌肽的产生、尿路上皮剥脱等机制,泌尿系统维持在一个无菌的状态。长期以来,尿液被认为应为无菌,但近来越来越
学位
有机光伏电池(OPV)由于质轻,成本低,半透明等优势受到广泛关注。在众多器件结构中,体异质结由于活性层中给、受体分子间相互交错形成互穿网络结构,增大了界面接触面积,有利于有效的激子解离和传输被广泛应用。其中,活性层中材料的合理设计是提升器件性能的关键因素之一,基于传统试错法设计新型高效的OPV材料,需要大量的资源和时间的投入。因此,通过理论表征方法,建立分子结构、活性层形貌和给、受体界面电荷转移(
学位
生物冶金是指利用微生物通过直接或间接作用将矿石中的各种金属溶出并加以回收的技术。与传统的物理化学方法相比,生物冶金技术具有明显的优势。一方面,生物冶金工艺生产成本低、无污染。另一方面,生物冶金可用于低品位、难处理的硫化矿以及尾矿的有效开发与利用。此外,近年来,生物冶金技术的应用已从生物开采拓展到含金属废弃物的资源回收,例如污水污泥和印刷电路板中的金属回收利用等。因此,生物冶金技术在开采低品位矿产资
学位
<正>近日,中国建筑集团有限公司(以下简称"中建集团")在京召开会议,深入学习贯彻习近平总书记关于国企改革发展和党的建设重要论述,贯彻落实全国国有企业改革三年行动动员部署电视电话会议、中央企业改革三年行动工作视频会议精神,对集团落实国企改革三年行动进行部署。集团党组书记、董事长周乃翔出席会议并讲话,党组副书记、总经理郑学选主持会议。
期刊