论文部分内容阅读
本工作研究了从新型的分子参数提取模型计算参数、并用于分子构效关系(QSPR/QSAR)建模,以及采用计算机辅助SELEX(指数富集配体系统进化技术)实验中适配体的筛选与设计。通常用于分子构效关系的分子参数,例如,几何参数、量子化学参数,是从处于真空、及基态的分子计算得到。在此状态下,分子结构处于理想状态,不受其他分子或溶剂的影响;并且,分子参数的计算往往是取整个分子作为计算对象。本工作采用新型参数计算模型,如过渡态结构、积分连续介质模型(IEF-PCM)、适配体的功能区域如环结构等进行参数计算,并用于分子构效关系研究。本工作主要分为以下6个部分。第1章主要是关于QSPR研究概述,包括数据集准备、参数提取模型、分子参数、建立QSPR模型的统计方法。第2章研究基于过渡态结构的分子构效关系模型预测烯烃单体Q-e活性参数。Q-e方程在解释、预测烯烃单体在自由基共聚合中的活性时非常有效。本文用2个支持向量机回归(SVR)模型分别预测Q-e方程中的单体Q、e活性参数。本文首次报道从烯烃单体与H·形成的过渡态结构C1H3-C2HR3·或·C1H2-C2H2R3计算参数、建立SVR回归模型。基于70种单体的1nQ最佳v-SVR模型(C=130、v=0.2、γ=1.0),其测试集相关系数R为0.982、均方根误差rms为0.269。单体活性参数e最佳ε-SVR模型(C=1.2,γ=3及ε=10-2)其测试集相关系数R为0.963、均方根误差rms为0.259。与文献所报道的模型相比,本文模型具有更好的预测能力。因此从过渡态结构预测单体Q-e活性参数是可行的,本工作将为分子构效关系研究提供新的思路。第3章研究基于IEF-PCM计算的构效关系模型预测Setschenow常数。溶解环境影响溶质的几何形状、能量状态、价荷分布以及其他性质,因而化合物在NaCl水溶液的Setschenow常数Ksalt受溶解环境的影响。基于溶剂效应的积分形式极化连续模型结合密度泛函理论(DFT),在B3LYP/6-31G(d)水平上优化分子几何结构;并采用同样的方法进行单点能计算、自然轨道分析。采用遗传算法(GA)与多元线性回归(MLR)相结合技术从计算的1672个参数中挑选出4个参数用于101种有机化合物Setschenow常数Ksalt的建模研究。最佳MLR、SVR模型具有的均方根误差rms分别是0.0287与0.0227。与现有的其他模型相比,本文的两个模型具有更好的统计品质。研究结果显示,采用IEF-PCM计算参数、预测化合物在NaCl水溶液的Setschenow常数Ksalt是合理的。第4章研究从链段结构预测聚甲基丙烯酸脂类玻璃化转变温度(Tg)。玻璃化转变温度是非晶态高聚物材料的一个最重要的参数。本文采用多元线性回归方法建立了56种聚甲基丙烯酸脂类高聚物玻璃化转变温度的QSPR模型。模型所用参数从聚甲基丙烯酸脂类主链包含10个重复单元的链段计算得到。模型训练集(包含36种聚甲基丙烯酸脂类高聚物)的相关系数为0.971,标准误差为15.731K;模型测试集(包含20种聚合物)相关系数为0.946,均方根误差rms为17.286K;整个数据集(56种聚合物)相对误差为4.065%。结果表明本文所得模型对聚甲基丙烯酸脂类高聚物Tg有着较强的预测能力;从高分子主链段(包含10个重复单元,两端以氢原子封闭,使计算模型完整)得到参数预测Tg是可行的,本工作为高分子材料其它性质的研究提供了新的参数提取模型。第5章研究用构效关系模型识别基于SELEX筛选的人肝癌(HCC)细胞SMMC-7721候选适配体序列。挑选和合成具有高亲和性、高特异性的人肝细胞性肝癌适配体对人肝细胞肝癌早期诊断和早期治疗至关重要。在本研究中,基于两类问题的支持向量机分类(SVC)技术用来建立模式识别模型、用于经SELEX筛选的候选核酸适配体的识别。本研究所用的候选核酸适配体序列是以人肝细胞性肝癌细胞株SMMC-7721为靶细胞、采用Cell-SELEX筛选技术得到。这些核酸序列对SMMC-7721呈现出不同程度的亲和性、特异性。本研究共计算了1670个分子参数,从中挑选了13个参数,并将其压缩成6个潜变量,作为分类模型的输入变量。所建模型对第3、5、7、9、11、及第13轮的SELEX筛选的候选适配体序列进行了预测,所预测的“获胜”适配体的分数分别为0.033、0.427、0.678、0.828、0.912及0.983,预测结果符合SELEX筛选的核酸适配体进化原则。根据所得结构-活性关系(SAR)模型,6条候选适配体序列其预测结果属于具有高亲和性和高特异性序列,它们的实验离解常数Kd值在纳摩尔范围内。本研究将模式识别方法用于适配体的设计和选择是成功的。第6章研究基于SELEX筛选的与人C-反应蛋白(CRP)结合的候选适配体富集水平模式识别研究,以及采用系统聚类分析对CRP候选核酸适配体进行分类。选择和合成人类C-反应蛋白适配体将会在预测心血管疾病风险领域具有重要意义。DNA适配体在筛选过程中的富集水平是一个重要参数,可作为选择候选适配体用于进一步亲和性和特异性测定的参考依据。本文首次报道了将基于结构-活性关系模型的模式识别用于CRP核酸适配体在SELEX筛选过程中富集水平的预测。本文采用经过10轮石墨烯氧化物(GO)-SELEX筛选获得候选适配体序列,为每条序列计算了1670个分子参数。然后挑选了8个分子参数,并用主成分分析(PCA)得到5个潜变量,用于建立适配体富集水平(作为因变量参数)的支持向量机分类(SVC)模型。通过粒子群优化算法(PSO)获得的SVC模型(C=8.1728和γ=0.2333)产生的训练集准确率为88.15%。重复序列为6和5的核酸序列预测正确率分别是70.59%和76.37%,结果合理、可靠。对于SELEX实验,面临一个重要的实际问题是如何从SELEX产品中挑选核酸序列用于下一步的亲和性、特异性测试。本文采用系统聚类(层次聚类)分析为CRP候选核酸适配体序列进行分类,为核酸适配体的挑选提供参考依据。在聚类过程中,以2个分子参数作为特征变量,以平方Euclidean距离描述两类样本相似程度,以中位数聚类法计算类之间的距离,采用系统聚类将4609条以CRP为靶标的候选核酸适配体序列分成两类。实验对9条序列进行了亲和性测定,系统聚类结果与实验结果完全一致。研究证明,本文采用系统聚类分析从SELEX产品中挑选候选核酸适配体序列用于进一步的亲和性测试是成功的。基于对CRP候选适配体的分类结果,挑选了10条既可能具有高富集水平,又可能具有高亲和性的核酸适配体序列。