论文部分内容阅读
基于核函数的方法是从统计学习理论中发展而来的非线性机器学习研究方法。很多线性的方法,例如特征抽取、相关性理论、分类及回归等,都可基于核化理论推广为非线性方法。“核技巧”为很多非线性问题的解决提供了一种新的思路,并被广泛应用于复杂疾病的诱因识别、基因功能相关分析、以及基因背后的非线性特征分析等领域,有着较高的理论和应用价值。然而,核函数的机器学习方法又面临着很多的挑战:核函数、核参数选择直接影响核化模型的精确性和推广能力;大数据量的核矩阵计算直接影响着核方法的运行速度;各种核方法的理论拓展和实际应用推广性能评价等问题,目前都还没有统一有效的解决方案。
本论文紧紧围绕核函数的机器学习方法,针对以上问题,结合协同进化优化思想,对常见的分类、回归、双聚类以及相关性问题进行了研究。首先,对核函数理论、各种协同进化智能技术及其应用领域发展进行了综述,指出了目前发展存在的问题以及将来的发展方向。其次,研究了核函数机制下非线性分类和回归框架;探索了基于此框架下,大数据量生物信息的分类和回归预测的应用;然后,应用核函数技巧拓展线性相关性和聚类方法,分别提出了核相关性和核双聚类方法,并将它们应用于基因调控网络和同源基因的预测研究,为探索基因信息背后的非线性特征提供了新的视角。本论文的主要研究成果体现在以下几个方面:
(1)对于分类,提出了融合数据降维、模型优化和分类三者为一体的核集成分类器。该分类器通过应用核主元分析去除复共线性噪声与冗余相关信息,进行多属性非线性降维;基于协同免疫克隆优化算法对核整体模型进行参数设置;应用支持向量机获取高维特征空间中的最优分类面。该方法可自动获取不同数据的线性和非线性分类优化模型。通过大量模式数据分类应用分析的实验结果显示,该分类器在准确性和推广性上优于线性分类器和神经网络方法,这种核集成分类模型在高维空间中会以样本最少的属性获得最好的分类效果。最后将这种核集成分类器应用于原发性开角型青光眼的鉴别,对比于临床结果和其他预测方法,试验结果显示,提出核集成分类器取得较好的鉴别精度,该方法是准确和有效的。
(2)对于回归,针对支持向量回归机核函数的不同选择,回归预测性能差异大和运行速度慢等问题,结合协同粒子群和区间划分思想,提出自适应核化粒子群支持向量回归区间预测器,并从理论和实验上探讨了这种新的区间支持向量回归机的优化性能。函数实验验证结果表明,本论文提出的全局自适应核区间预测器无论在运行速度还是在回归预测精度上,都优于一般支持向量回归,后向神经网络和三次样条曲线拟合预测方法。将其模型应用于癌患者生存预后预测,取得了较高的拟合准确度。
(3)对于聚类,提出了非线性核双聚类架构,解决了局部非线性相关信息的提取,获得了更为准确的聚类。针对最为常用的高斯核,从理论上描述了高斯核双聚类特性。结合扩展人工免疫克隆系统算法,提出了快速协同免疫克隆Memetic核双聚类(CICMKB)算法,为快速获取非线性核双聚类提供了应用基础。通过基因共调控协同信息提取实验的验证,相对于标准遗传算法和人工免疫算法算法,CICMKB算法的预测误差最小,可发现更多的双聚类基因,同时我们还给出了生物意义解释。
(4)对于相关性分析,拓展了线性Pearson相关系数到高维特征空间,提出用于检测数据间非线性交互关系的核相关系数,并给定了统计意义解释。为了评价这种核相关交互测度,基于图论构建了一种协同自适应酵母菌基因非线性调控网络。通过与经典的线性Pearson网络对比,酵母菌基因调控网络的边、节点、团等分布特征被详细分析和讨论,并解释了这些非线性基因相关性生物意义。通过对十个基因逆向工程金标准数据的对比试验,阐明核相关系数网络比互信息相关、线性相关可更准确地探测基因间功能的交互作用。核相关系数法为分析大数据高通量非线性交互特征,提供了一个高效准确有用的工具。
最后,总结了全论文的工作,指出了研究工作中存在的不足,并对今后的研究方向和研究重点进行了讨论。