化学生物信息学新方法及其在医药研究中的应用

来源 :中南大学 | 被引量 : 5次 | 上传用户:lk_wuyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,药物研发已经由传统的研发模式转向了基于系统药理学的研发模式。基于此种模式,海量的数据在药物研发过程中需要分析和处理。化学生物信息学是一门新兴的用于研究药物及药物相关系统中信息内容和信息流向的综合系统学科。将化学生物信息学引入到药物研究过程中,可以极大地加快新药研究进程,缩短研究周期,降低研究费用。从药物研究全过程来看,几乎每一个环节都与化学生物信息学有着密切的关系,如药物靶标发现,药物先导化合物发现,候选物结构修饰和优化、药代动力学研究,药物的临床前研究和临床研究,以及药物投入市场后的不良反应跟踪等。不过面对如此复杂的数据,化学生物信息学研究面临诸多困难问题:(1)高质量QSAR/SAR模型的建立经常涉及到奇异样本检测、特征选择以及非线性等建模问题;(2)如何提取不同水平上不同数据结构信息并加以整合来建立一个假设可测试的模型已成为当今化学生物信息学乃至系统生物学面临的最大挑战;(3)在高通量扫描和药物临床实验数据中,经常会伴随有缺失值、混合数据类型、数据不平衡、存在奇异样本、特征多样本少、非线性、以及多类别多模式等一系列问题;(4)如何对常用药物信息进行提取和收集并转化为药物化学家容易使用的工具是化学生物信息学急切需要解决的问题;(5)如何提取网络中的特征信息以及建立高精度网络预测模型是需要迫切解决的问题。针对这些困难问题,本论文发展了一些新型的化学生物信息学方法,并且基于这些新方法对药物研发中关注的两个问题(药物ADMET性质评估和药物靶标发现)进行了研究。本论文研究内容主要包括两个部分:基础研究部分(第二章-第五章)和实际应用部分(第六章和第七章)。基础研究部分包括化学生物信息学新型方法和药物信息提取方法研究,实际应用部分为药物ADMET性质评估和药物-靶点相互作用网络预测。本论文主要研究内容包括:一、对化学生物信息学及其研究内容进行了简要的介绍,比较了化学生物信息学与化学信息学,生物信息学在药物研发中的异同。明确地提出了化学生物信息学研究应以系统的观点对药物信息进行提取,即从分子水平、细胞水平和组织乃至更高水平上对药物进行描述,并最终有机地整合在一起共同加深对药物行为的理解。鉴于各种统计学习算法在药物数据挖掘中的重要性,对化学生物信息学中常用的数据挖掘方法进行了简要介绍。网络建模在化学生物信息学中变得越来越重要,本章对网络模型的构建以及一些难点问题进行了分析。最后对化学生物信息学研究中的难点问题进行了总结,在以下几章中将通过发展各种化学生物信息学新型方法来解决这些难点问题。(第一章)二、提出了基于模型特征的分布进行奇异样本诊断和特征选择的新方法。通过研究样本在模型种群中预测误差的分布,发现预测误差分布的统计特征能够有效地区分正常样本和各种类型奇异样本。基于此,我们发展了一种用于奇异样本诊断的蒙特卡洛方法。此方法能够同时诊断数据中的各种类型的奇异样本,并且降低了掩蔽效应带来的风险。通过和其它奇异样本诊断和稳健回归方法进行比较,证实了我们提出的方法的优越性能。考虑到样本空间和特征空间的相互作用,我们构建了一个统一的框架来进行奇异样本诊断和变量选择。其主要思想是通过模型系数的统计分布进行变量选择,通过样本预测误差的分布进行奇异样本诊断,后项消除策略用来捕捉样本空间和变量空间的交互作用。将此方法应用到模拟数据和QSAR数据的分析,得到了非常显著的性能提高。(第二章)三、对核方法及核融合算法进行了深入的研究,提出了几种用于药物数据挖掘的新型核方法。由核方法的模块化可知,核函数的选择和建模方法的选择可以分离开来考虑。通过选择不同的核函数和建模方法,我们能够构建满足不同需求的核模型。基于此,我们发展了一种基于SMILES表征的字符串核支持向量机算法,并将其应用到毒性数据的分类研究。通过和其它核函数及描述符的比较,证实了我们方法的高性能。基于SMILES表征的字符串核支持向量机模型不需要计算任何分子描述符,因此应用简单方便。通过考虑不同的建模方法,我们在核框架内发展了一种核k-近邻算法,并将其和不同核函数结合,有效地克服了原始k-近邻算法的缺点。在核方法中,核特征空间内出现冗余特征时,将会严重影响核方法的预测性能。通过在核特征空间内应用核主成分分析,发展了一个两步算法来解决核空间内冗余特征问题。核主成分分析首先用来在核特征空间内进行去噪处理,然后线性支持向量机在此空间内进行分类研究。将此算法应用于QSAR数据的分析,获得了高的预测性能。(第三章)四、对决策树及基于决策树的集成算法进行了深入的研究,提出了几种用于药物及组学数据挖掘的新方法。由于特征选择在药物数据建模中的重要性,我们研究了决策树及基于决策树的集成模型的特征选择问题,发展了一个广义的框架用来选择有信息的变量子集。通过对随机森林算法的原理进行分析,发展了一种特征重要度采样的自适应随机森林算法,并将其应用于QSAR数据的分析,获得了比原始随机森林更高的预测性能。通过充分利用决策树的自动逐步特征选择和样本复杂度缩减的优点,我们结合蒙特卡洛采样技术发展了一种蒙特卡洛树算法用于分析代谢组学数据中的模式信息。将此算法应用于两个代谢组学数据分析,获得了代谢组学数据中清晰的模式。最后我们发展了一种基于树核的核Fisher别分析算法,并将其应用到代谢组学数据的分析中,获得了显著的效果。(第四章)五、针对于分子特征表征在化学生物信息学中的重要性,我们开发了四套用于分子特征提取的软件包,并且构建了基于web的分子特征计算服务器。四套软件分别为:(1)用于化学小分子特征提取的ChemoPy软件包;(2)用于蛋白质序列特征提取的ProPy软件包;(3)用于生物网络特征提取的PyNet软件包;(4)用于药物-靶点相互作用及蛋白质互作用描述符PyDPI软件包。应用这些软件包和网络服务器能够很好地辅助药物化学家和生物学家进行复杂分子数据的表征和分析。(第五章)六、对药物ADMET及物理化学性质进行了基于计算机辅助的预测研究,并最终构建了一个药物ADMET’性质数据库和基于web的在线预测平台。鉴于水溶性在药物研发中的重要性,我们发展了三个预测模型用于化合物水溶性的预测,通过对选择的分子描述符进行分析,发现了影响药物水溶性的因素。运用第四章发展的改进随机森林算法对药物最大日推荐剂量进行结构-活性关系预测研究,通过分析不同疗效药物的子结构碎片,发现了一些相关药物分子毒性的特征碎片。此方法能够提前预估临床一期实验中药物的最大推荐剂量。基于随机森林和子结构模式,我们发展了一个结构-活性关系模型框架对化合物毒性进行计算机辅助预测,此方法有助于化学家对化合物的毒性评估。通过发展2D-QSAR模型,研究了100个结构多样的天然产物对OATPIBI调控的雌酮硫酸盐摄取的抑制效应,一些影响抑制效应的结构因素被识别。通过研究天然产物结构和抑制效应间的定量关系,获得了深入的天然产物-药物相互作用潜在机制的视野。最后我们构建了一个药物ADMET性质数据库和基于web的在线预测平台,旨在方便药物学家对ADMET性质的分析和评估。(第六章)七、基于化学基因组学框架,提出了基因标度地预测药物-靶点相互作用网络的方法。通过药物-靶点对的Ki结合常数,我们区分了整个药物-靶点对集为正样本集和负样本集。化学基因组学方法用来表征药物-靶点相互作用关系,即一个药物-靶点对能够通过同时考虑药物描述符和蛋白质描述符共同来表征。随机森林模型用来构建预测模型。预测结果和深入分析证实了我们提到的化学基因组学框架的合理性。通过对未知药物-靶点对的预测和网络分析,显示了药物在临床上的多药理特征。此方法提供了一种有效方式来研究药物和靶点的行为。基于web的预测服务器PreDPI-Ki最后被构建方便药物学家对此研究成果的应用。在此方法的基础上,通过引入网络特征描述符,药物-靶点相互作用的预测精度能够显著地提高。在四个标准数据集上的预测模型的比较证实了网络特征在药物-靶点相互作用网络预测中的重要性。基于化学、生物和网络特征融合构建的预测模型,我们扫描了未知的药物-靶点对,发现预测排序在前的药物-靶点对大部分能够被实验证实。此方法能够为药物重定向分析和靶点鉴别提供了一种可供选择的方式。最后,基于构建的药物-靶点相互作用预测模型,我们评估了26种天然产物的升压机制。通过预测天然产物和相关靶点间的关系,发现不同的升压机制由不同的靶点所引起。因此通过对天然产物的靶点谱进行聚类分析,可清晰地发现天然产物不同的升压机制。此方法提供了一种药物分子作用机制评估的新途径。(第七章)
其他文献
在分析知识付费产生的背景及发展现状的基础上,论述了专栏订阅的"出版"逻辑和特点,探讨了专栏订阅对数字出版的指导思想、出版物形态、营销产生的影响与启示。
酸泡煮沸豆奶除腥及其对营养素的影响徐臻荣,付德润,郭伟,党迷,依斯坎得尔(预防医学系营养与食品卫生学教研室)大豆及其制品能为人类提供优质蛋白、不饱和脂肪酸及丰富的无机盐和B族
新课改推动小学语文课程变革,促进了小学语文教学质量的不断提高。教师在进行语文作文教学时,要符合新课改的要求,符合当代教育的发展,同时要不断更新教育观念,调整课程设置,
邵天助 1947年生于江西都昌,毕业于江西共大庐山分校林业系,结业于上海大学美术学院。中国工艺美术学会会员,中国工艺美术大师(中国工艺美术家协会授予永久性荣誉称号),景德镇美协
在这个病毒猖獗的年代,网民的安全意识日益提高。当你收到一个可执行程序时。肯定会保持警惕,思量再三,绝对不会轻易点击。但如果对方发送给你的仅仅是快捷方式时,你是否会想到,这些普普通通的图标下面可能会藏有机关?    注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
粉彩瓷与青花、玲珑、颜色釉并称为景德镇四大名瓷,以其粉润清秀、色彩绚丽、画工精细、俊雅秀美的独特风貌而享誉海内外,受到了人们的普遍欢迎。而在粉彩瓷众多装饰技法中,写意
本文在分析了现有网管不足的基础上,介绍了将CORBA和Mobile Agent技术应用于网管的基本思想,并结合二者提出了一种新的基于CORBA和Mobile agent的网络管理系统模型.