论文部分内容阅读
尽管几十年来计算机技术的发展不断延续摩尔定律的辉煌,并且相信这个发展速度还将持续十几年。但是直接将量子化学方法应用于生物体系,研究生物分子的物理化学性质以及一切生命活动的分子机制,在目前的计算条件下仍然是不可能的。传统量子化学方法的计算量以及对内存的需求随着计算体系的增大迅速增加。尽管在数学上的一些进步使得HF,DFT等方法的计算量降低到N的三次方,但是仍然不能直接应用于生物体系。目前研究生物体系的主要方法仍然是分子力学。分子力学通过对实验数据以及高精度量子化学计算结果的拟和,获得一套分子力学参数,从而降低了计算的复杂性。分子力学在精度和速度上的不断提高,已经在许多方面的研究取得了成功。然而由于分子力学中不包含电子自由度,不能研究过程中的化学键断裂和形成,从而对研究化学反应无能为力。生命过程中包含了复杂的酶催化反应,只能求助于量子化学方法的引入。QM/MM经过三十多年的发展,已经成为一套较为完善的方法。在这个方法中,被研究体系被分割成主要区域和次要区域。主要区域包含了我们所关心的核心区域,比如酶催化反应中心等,而次要区域则是主要区域所处的环境。对于主要区域,我们可以应用高级别的量子化学方法。而对于次要区域,可以应用分子力学方法。通过这种分层次的杂合方法提高计算的效率和精度。1991年杨伟涛教授提出了“分而治之”的线性标度量子化学方法,其计算量随着体系的增加呈线性增加。这个思想为生物体系的全量子计算开辟了道路。目前这类方法分为两种,一种是基于Fock矩阵和密度矩阵截断的方法。由于密度矩阵随着原子距离的增加呈指数衰减,在精度允许范围内将密度矩阵截断,得到稀疏的密度矩阵,从而降低计算量。另一类是分子剪裁方法。该方法将大分子被分割成若干分子碎片,碎片的电性质线性叠加获得大分子整体的电性。尽管这两类方法在不同的层次上分割分子,但是都是基于分子电性质的局域性,即分子的电子结构受到远处环境的影响是非常微弱的。由于分子裁减方法相对简单,并且容易大规模并行化,通信少,并行效率高,因而更加容易发展。近年来张增辉教授课题组发展的MFCC方法就是一套分子剪裁的方法。在MFCC方法中,蛋白质或者核酸被分割成一系列规则的片段。通过引入一对共轭的帽子将每个片段的化学键饱和,并且引入环境对片段电子结构的影响。共轭帽中原子的选择则是由每个片段所处的环境所决定。随着共轭帽的增大,所表征的环境越精确,计算精度也将随之提高。该方法已经被成功的应用于研究蛋白质的空间电荷密度,蛋白质总能量,配体分子在蛋白质活性中心的优化,蛋白质配体相互作用,蛋白质溶剂化以及药物设计。随着该方法的不断发展,我们有理由相信MFCC方法在蛋白质体系研究中将扮演着越来越重要的角色。
本文在张增辉教授纽约大学课题组已有的工作基础上,进一步完善和发展MFCC方法,包括通过类似于多体展开的MFCC修正方法进一步降低MFCC近似方法的误差;通过引进氢键帽子处理蛋白质结构中的氢键;通过MFCC方法的思想将已经比较成熟的小分子溶剂化方法CPCM推广到蛋白质的溶剂化过程研究中;利用MFCC方法,研究HIV-1逆转录酶(RT)和依非韦伦(Efavirenz)的相互作用以及c—kit激酶和甲磺酸伊马替尼(Gleevec)相互作用,解释变异导致抗药性的机理。第1.3节,我们提出了提高MFCC计算精度的校正方法。由于MFCC是近似方法,每次切割都会带入误差。对于密度泛函等计算,需要更高精度的电荷密度。通过减少切割的数量,我们可以获得对误差的一次修正。将所有的修正项带入MFCC计算公式,就得到了经过校正的MFCC方法。通过对6个氨基酸片段的计算,我们比较了偶极矩和空间电荷密度,可以发现经过校正的MFCC方法比未经校正的MFCC方法精度有不同程度的提高。第1.4节,我们介绍了蛋白质中氢键的处理方法。氢键在蛋白质中非常丰富,二级结构α螺旋和β折叠都是靠氢键维持的。氢键含有静电和共价键的性质,伴随着电荷的转移。氢键的处理有助于提高蛋白质量子计算的精度。我们沿着氢键的位置切开,根据α螺旋以及平行和反平行β折叠中氢键的性质,我们选取了不同的氢键帽子饱和氢键给体和受体。我们测试了3个α螺旋片段,用HF和密度泛函方法分别在6-31G*和6-31G*基组下进行计算,得到的偶极矩非常接近于全系统的量子计算。我们又测试了含有19个氨基酸的α螺旋和含有21个氨基酸的反平行β折叠,比较MFCC和全系统量子计算获得的电荷密度在空间的分布,RMSD在10-4数量级。在HF/6-31G*级别上,MFCC和全系统计算获得偶极矩非常接近,而从Amber力场计算的偶极矩远低于量子计算的值。这说明非极化Amber力场对于极化作用描述不够,进一步说明了对于强极化体系,量子计算的重要性。第1.5节,我们将MFCC方法和自洽反应场方法结合起来,发展了基于从头算的蛋白质溶剂化计算方法。自洽反应场方法主要应用在小分子体系,经过多年的发展已经能提供非常精确的溶剂化能。然而,对于大分子体系,主要应用经典泊松—玻尔兹曼方法和推广的波恩方法。但是由于经典方法缺乏显式的溶质极化能量,不能描述溶剂对溶质,尤其是分布在表面的氨基酸的极化作用。因此,发展一套基于从头算的蛋白质溶剂化能方法对于提高大分子研究的精度以及新药设计非常有必要。我们发展的MFCC—CPCM方法将溶质当成导体,获得溶质—溶剂界面上的电荷密度和电势,求解COSMO方程获得诱导电荷。在诱导电荷的极化下,再次求解新的电荷密度和电势。通过这样的迭代过程,获得平衡的溶剂化能。我们测试计算了8个蛋白质片段和8个蛋白质,得到的结果表明极化能量不可忽略,且由MFCC—CPCM计算得到的溶剂化能与K.M.Merz,Jr教授发展的D&C—PB方法计算得到的溶剂化能相关性非常高。这说明MFCC—CPCM方法对于蛋白质的溶剂化能研究是成功的。第1.6节,我们介绍了MFCC程序包的基本情况。MFCC程序包是用Fortran77语言编写的,为了方便数据的打包,增加了部分语言的扩充。程序使用了基于消息传递的并行方式,推荐使用Intel或者PGI公司的Fortran编译器以及Intel数学函数库。程序在X86和IA64架构的集群上测试运行正确。第2.1节,我们研究了HIV-1逆转录酶与药物依非韦伦作用的机理,从结构上分析K103N和Y181C变异导致抗药性的原因。通过将蛋白质切割成带有共轭帽的氨基酸片段,计算每个片段与依非韦伦的相互作用。计算表明K103N导致抗药性主要是由于依非韦伦与HIV-1逆转录酶的K101氨基酸的吸引作用交弱了,E698与依非韦伦排斥的增强是Y181C变异导致抗药性的主要原因。这些研究为新药设计提供了依据。第2.2节,我们研究了c—kit激酶中V654A变异导致对甲磺酸伊马替尼抗药性的机理。美国食品与药品管理局在2001年批准了甲磺酸伊马替尼用作白血病的治疗。虽然前期效果很明显,几个月后患者会出现抗药性。导致抗药性的变异包括第654位的缬氨酸变异为丙氨酸。我们用MFCC方法计算蛋白质与药物在动力学模拟的最低能量结构时的相互作用。由于体系较大,我们将蛋白质分成量子力学计算区域和分子力学计算区域,前者在MP2/6-31G*层次上计算,并且使用了6s6p4d2s的键函数;后者使用Amber94力场计算相互作用能。计算表明变异导致蛋白质与药物的吸引作用下降了约6.4kcal/mol,抗药性主要是由于甲磺酸伊马替尼与620至680位的氨基酸吸引变弱了。