论文部分内容阅读
随着互联网和计算机的迅猛发展,各领域都产生了海量的数据,如生物学、计算机科学、金融学等诸多领域都存在种类繁多的复杂数据,因此,需要从大量的数据中提取有价值的信息进行分析。近年来,变量选择成为了统计学的研究热点,尤其是惩罚项正则化方法,其特征是通过惩罚函数进行变量选择,能够处理高维且存在共线性的数据。本文主要研究惩罚函数的变量选择的改进方法和在基因关联分析中的应用,在原有的惩罚函数模型的基础上考虑变量之间的网络结构关系,并将惩罚项正则化用于多因变量回归模型。本文的内容可分为两个部分,具体内容如下:1、在原有的惩罚函数模型上加入网络惩罚项本文中在单个变量选择的模型上,考虑了变量之间的网络结构关系。通过对四种不同类型的数据进行模拟研究,并以前列腺癌基因表达谱数据进行实例验证,分别比较基于网络结构的惩罚函数的变量选择模型和基于惩罚函数的变量选择模型的优劣性,结果表明:基于网络结构的惩罚函数模型较原有的惩罚函数模型更具有优越性和稳定性,尤其是基于MCP惩罚函数的网络结构模型有较高的预测能力,对于发现患有前列腺癌的病人有很大的帮助。2、将惩罚函数的变量选择方法应用于多因变量回归模型(1)本文详细介绍了基于协方差估计的多因变量回归模型,其原理是在似然函数上加入了惩罚项。通过计算机模拟研究基于协方差估计的多因变量回归模型在六种情况下的预测效果和变量选择效果,并在水稻DH群体的多性状QTL定位中,将基于协方差估计的多因变量回归模型与稀疏偏最小二乘法进行比较,研究表明基于协方差估计的多因变量回归模型在变量选择上有更佳的效果。(2)由于基于协方差估计的多因变量回归模型只能在解释变量小于样本量的情况下进行,本文提出一个基于高维数据的多因变量回归模型(即解释变量远大于样本量的情况)。通过计算机模拟分析该模型的预测和变量选择效果,并将基于高维数据的多因变量回归模型与稀疏偏最小二乘法都应用于高维的籼型杂交水稻的多性状QTL定位中,证实了基于高维数据的多因变量回归模型在变量选择和预测上都具有较好的结果。