变量选择和变换的新方法研究

来源 :同济大学 | 被引量 : 1次 | 上传用户:zhuzhutoutuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪被誉为生命科学的世纪,仪器和分析技术快速发展,化学和生物学数据的积累呈指数级增长。然而,对于这些不断增长的海量数据,如何从中发现更多、更有价值的信息是对化学和生命科学研究的一个巨大挑战。在解决这些超大规模数据问题时,经常碰到的问题之一就是“维数灾难”。在低维空间里计算上可行的办法,在高维空间里可能变得全无实际意义。如何处理含大量变量的超大规模数据集,需要提出新的思路和新的解决办法。对于这样的高维数据,一个很直观的想法便是选择并保留一些重要变量(变量选择)或者通过原有变量的线性/非线性组合来代替原来的变量(变量变换)。本论文的主要内容就是变量选择和变换的新方法的研究。首先简述了定量构效关系的基本原理,实现步骤以及研究现状,简单介绍了一些传统的变量选择方法;同时简述了超大规模数据常用的降维方法,包括变量变换和从统计学角度进行变量选择的一些方法。接着从三个层次的研究策略提出了变量选择及变换的新方法,包括核函数方法,多阶统计量变换方法,模式变量方法等。核函数近年来在机器学习等许多领域获得了重要的应用,本文将其引入偏最小二乘方法。以样本之间的关系代替原变量之间关系的方式,用于数据的回归以及分类等。这样数据不需进行变量选择,避免了不同选择方法选择出的变量不相同的结果,取得了不错的结果。其次提出了多阶统计量变换方法。统计矩可以反映数据集整体的变化方式,这里用多阶统计矩构建新的特征变量。将数据分为若干区域,得到每个分区的4阶统计量,并以此分区信息作为新的变量进行计算,变量数目减少,分类效果进一步提高。上述两种方法考虑到了数据的整体和局部信息,但是都没有反映出特征变量的具体贡献,因此又提出了模式变量的方法。探索了连续变量的模式表达方法,将连续变量转换成模式变量,进一步减少了变量数,简单地说,模式的组合就构成了模式变量。针对肿瘤和对照集分别提取出各自特异的表达模式,也取得了较好的结果。在应用研究方面,选取了几个实际应用体系,将上述方法应用于复杂疾病的诊断、计算蛋白质组学、环境污染物重要性质的预测以及药物辅助设计等研究,具有很好的应用前景及重要的理论和实际意义。复杂疾病诊断的应用包括蛋白质芯片(SELDI-TOF)卵巢癌分类和基因芯片白血病分类,都得到了令人满意的结果,对复杂疾病的早期诊断提供了有价值的参考结果。在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定性定量分析提供了一个比较可靠的方法。预测持久性环境污染物dioxins保留时间和保留特征值,并结合其与芳烃受体的对接结果预测毒性,为进一步建立环境中持久污染物的分析体系提供有价值的理论依据。本文将KPLS应用于计算机辅助药物分子设计,尝试通过利用分子对接的结果如对接能量、配体和受体的原子间距离等建立构效关系模型,研究了细胞周期蛋白依赖性激酶2(CDK2)抑制剂、神经氨酸酶抑制剂环己烯衍生物,今后还需要进一步深入的研究。
其他文献
伏马毒素是动物饲料中常见的霉菌毒素之一,能引起马脑白质软化症、猪肺水肿等疾病,给多种动物肝脏,肾脏造成损伤,甚至引起肿瘤发生,且人食管癌和神经管型缺陷病也可能与伏马
闸板阀型混凝土泵对不同级配和品质的混凝土有较强的适应性,在市场上拥有广泛的用户,但由于其特殊的结构常会出现不同于S管阀泵的诸多故障,现简介其工作过程中的常见故障并分
含三个吡啶环的三(2-吡啶甲基)胺(TPA),具有良好的配位能力,能与大多数过渡金属形成稳定的配合物,因而被广泛用于对含铁、铜、锰等的生物酶进行结构和功能的模拟。以TPA为配体的
本论文设计合成了两个系列11个未见文献报道的化合物,其中包括5个配体和6个金属配合物,并通过元素分析、核磁共振谱和X-射线晶体结构测定等手段对所合成的化合物进行了结构表
《温室设计与建造》是一门为设施农业科学与工程专业的学生设置的专业课程。由于学时的限制和教材的局限性,当前在实际的教学过程中仅能向学生介绍温室设计与建造的基础知识,
重庆地区石灰岩植物组成简单,区系成分复杂,已经鉴定定名的维管植物有97科244属338种.其中蕨类植物14科17属24种,裸子植物2科2属2种,被子植物79科225属312种.从生长型看,乔木