论文部分内容阅读
21世纪被誉为生命科学的世纪,仪器和分析技术快速发展,化学和生物学数据的积累呈指数级增长。然而,对于这些不断增长的海量数据,如何从中发现更多、更有价值的信息是对化学和生命科学研究的一个巨大挑战。在解决这些超大规模数据问题时,经常碰到的问题之一就是“维数灾难”。在低维空间里计算上可行的办法,在高维空间里可能变得全无实际意义。如何处理含大量变量的超大规模数据集,需要提出新的思路和新的解决办法。对于这样的高维数据,一个很直观的想法便是选择并保留一些重要变量(变量选择)或者通过原有变量的线性/非线性组合来代替原来的变量(变量变换)。本论文的主要内容就是变量选择和变换的新方法的研究。首先简述了定量构效关系的基本原理,实现步骤以及研究现状,简单介绍了一些传统的变量选择方法;同时简述了超大规模数据常用的降维方法,包括变量变换和从统计学角度进行变量选择的一些方法。接着从三个层次的研究策略提出了变量选择及变换的新方法,包括核函数方法,多阶统计量变换方法,模式变量方法等。核函数近年来在机器学习等许多领域获得了重要的应用,本文将其引入偏最小二乘方法。以样本之间的关系代替原变量之间关系的方式,用于数据的回归以及分类等。这样数据不需进行变量选择,避免了不同选择方法选择出的变量不相同的结果,取得了不错的结果。其次提出了多阶统计量变换方法。统计矩可以反映数据集整体的变化方式,这里用多阶统计矩构建新的特征变量。将数据分为若干区域,得到每个分区的4阶统计量,并以此分区信息作为新的变量进行计算,变量数目减少,分类效果进一步提高。上述两种方法考虑到了数据的整体和局部信息,但是都没有反映出特征变量的具体贡献,因此又提出了模式变量的方法。探索了连续变量的模式表达方法,将连续变量转换成模式变量,进一步减少了变量数,简单地说,模式的组合就构成了模式变量。针对肿瘤和对照集分别提取出各自特异的表达模式,也取得了较好的结果。在应用研究方面,选取了几个实际应用体系,将上述方法应用于复杂疾病的诊断、计算蛋白质组学、环境污染物重要性质的预测以及药物辅助设计等研究,具有很好的应用前景及重要的理论和实际意义。复杂疾病诊断的应用包括蛋白质芯片(SELDI-TOF)卵巢癌分类和基因芯片白血病分类,都得到了令人满意的结果,对复杂疾病的早期诊断提供了有价值的参考结果。在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定性定量分析提供了一个比较可靠的方法。预测持久性环境污染物dioxins保留时间和保留特征值,并结合其与芳烃受体的对接结果预测毒性,为进一步建立环境中持久污染物的分析体系提供有价值的理论依据。本文将KPLS应用于计算机辅助药物分子设计,尝试通过利用分子对接的结果如对接能量、配体和受体的原子间距离等建立构效关系模型,研究了细胞周期蛋白依赖性激酶2(CDK2)抑制剂、神经氨酸酶抑制剂环己烯衍生物,今后还需要进一步深入的研究。