论文部分内容阅读
淀粉样蛋白的错误折叠和异常聚集是阿尔兹海默症、II型糖尿病、朊病毒等相关蛋白质构象病发生的主要原因之一。然而,目前淀粉样蛋白的聚集机理仍不清楚。研究表明,蛋白质中的关键序列是导致异常聚集的重要原因。目前对于这些关键序列的识别及其结构功能关系研究的滞后,成为澄清其聚集机制以及相关药物研发的瓶颈。鉴于此,本文借助生物信息学方法建立定量序列-结构-聚集特征关系模型,用于预测多肽的聚集特征,同时利用分子动力学模拟、量子化学等理论方法对多肽的聚集机理进行深入的研究。研究结果对预测多肽自组装、鉴别蛋白质中可聚集多肽序列、理解肽/蛋白聚集机制以及设计潜在多肽聚集抑制剂和纳米材料有重要理论意义和应用价值。 本研究主要内容包括:①定量序列-聚集特征关系模型构建:从180个六肽样本入手,基于氨基酸广义信息因子分析标度(FASGAI)以及天然和非天然氨基酸指数(NNAAIndex)表征参数分别建立了支持向量机(SVM)分类预测模型。研究结果显示:FASGAI-SVM模型预测准确性(Acc)、受试者操作特征(ROC)曲线面积分别为78.33%及0.83;NNAAIndex-SVM模型预测预测准确性(Acc)、受试者操作特征(ROC)曲线面积分别为76.11%及0.79。此外,将FASGAI表征因子组合决策树、神经网络等方法建立模型对比结果显示:FASGAI-SVM模型预测准确性、灵敏度、特异性和马修斯相关系数分别为78.33%、88.24%、69.74%、58.34%相比于其他方法建模结果较好。此外,利用F-Score打分对模型36个FASGAI结构表征参数筛选,得出有九个变量对多肽的聚集有影响,分别位于六肽序列的三、四、五位点,推测六肽的聚集“热点”主要与三、四、五位点上氨基酸性质有关。②FASGAI-SVM模型用于多肽聚集特征的预测:采用6-残基窗口扫描β-淀粉样蛋白(Aβ42)和胰岛淀粉样蛋白(hIAPP37)两种蛋白中的六肽序列并预测其可聚集特性,对比发现模型识别出可聚集六肽片段与实验报道结果具有较好一致性。利用分子动力学模拟和量子化学理论方法对六肽聚集性进行评价,分析得出氢键以及氨基酸疏水性、电性以及体积性质对多肽聚集“热点”的形成有重要影响。且不同环境下二聚体多肽链间相互作用有明显区别,水环境下多肽多聚体更容易形成聚集;模型对三肽、四肽以及五肽的预测表明聚集序列中I、L、V、F、M五种氨基酸出现频率较大,反映出疏水性对多肽聚集有重要影响。③FASGAI-SVM模型用于可聚集多肽的设计与理论验证:利用模型设计出110条可能聚集的六肽。根据六肽残基位点变化差异选择110条可聚集六肽中的22条对其平行、反平行二聚体运用分子动力学模拟和量子化学方法验证。结果显示23个六肽二聚体构象C-和N-末端距离都不超过8?,其中可以潜在形成多肽自组装的二聚体六肽序列占总的二聚体六肽总数的70.83%。此外反平行结构较稳定主要受分子间氢键的影响。