【摘 要】
:
成分数据是一组非负且和为常数的数据组成的向量。它具有特殊的性质,一般用于研究个体占整体的百分比或者是比率。成分数据反应的是数据间的相对信息,而不是数据本身的信息。由于数据的特殊性,常见的统计模型或者统计方法并不能直接应用在成分数据中。成分数据如何回归分析,以及如何进行变量选择是当前研究的一个重点。本文主要研究的是成分数据的组变量选择问题,即从众多变量中选择与因变量具有相关性的组变量,包括无等级结构
论文部分内容阅读
成分数据是一组非负且和为常数的数据组成的向量。它具有特殊的性质,一般用于研究个体占整体的百分比或者是比率。成分数据反应的是数据间的相对信息,而不是数据本身的信息。由于数据的特殊性,常见的统计模型或者统计方法并不能直接应用在成分数据中。成分数据如何回归分析,以及如何进行变量选择是当前研究的一个重点。本文主要研究的是成分数据的组变量选择问题,即从众多变量中选择与因变量具有相关性的组变量,包括无等级结构的组变量选择和存在等级结构(交互作用)的变量选择。本文的主要研究成果主要有:(1)提出了一个针对无等级结构的组变量选择方法:成分数据的组Lasso算法。在高维数据中,变量常常不是单个存在的,而是以组的方式共同存在的。如何选择出对因变量有显著影响的组甚至组内变量,这是高维数据中一个主要的问题。在众多的统计方法中,稀疏组Lasso可以很好的解决这个问题。本文主要将稀疏组Lasso的算法引入到成分数据中,同时考虑了成分数据的广义线性模型这种复杂模型中组变量选择问题。(2)实践证明考虑交互作用的模型具有更好的模型效果和可解释性,在本文中同样考虑了交互作用下成分数据的变量选择问题。针对存在交互作用(等级结构限制)的成分数据:强交互作用和弱交互作用,分别提出了成分数据强交互作用下的等级Lasso模型(CSHLM)和成分数据弱交互作用下的等级Lasso模型(CWHLM)。由于主效应和交互效应存在重叠部分,因此传统的统计模型并不能正确的识别出对因变量有显著影响的主效应和交互效应。本文主要从系数限制的方面重新看待等级结构性稀疏,通过对系数增加限制的方式,来选择主效应和交互效应。本文的研究成果将进一步的丰富了成分数据变量选择的研究,为以后在各行各业所遇到的成分数据的变量选择问题提供了新的解决方法。
其他文献
Lorenz系统描述了经典的“蝴蝶效应”,尽管它是混沌的,但是在大范围上展现出一致的动力学行为.本文主要从统计的角度研究Lorenz系统的符号编码,并应用编码技术给出平衡态唯一性的一个证明:当奇点不支撑平衡态时,存在唯一的平衡态.为了讨论平衡态,我们首先将三维Lorenz流约化为二维截面映射,再将二维截面映射约化为一维区间映射,并且在约化过程中保持拓扑压一致,从而问题被归结为一维区间映射的平衡态存
羽毛作为产量丰富、易于获取的天然蛋白质资源常被当作垃圾丢弃,不仅是对蛋白质资源的浪费,还会滋生细菌、污染环境,危害人类健康。因此,对废弃羽毛合理开发利用,提高羽毛角蛋白附加值显得尤为重要。羽毛角蛋白资源的回收利用既要解决羽毛角蛋白的溶解提取问题,也要根据羽毛角蛋白结构性能合理拓展应用领域。本文用低共熔剂(DES)和去离子水组成的溶解体系溶解提取羽毛角蛋白,然后将其与丝素蛋白共混制备角蛋白/丝素多孔
变量的相关性度量一直是学者关注研究的重点,在统计、金融等各领域占有重要的地位。传统的协方差与相关系数方法在度量相关性方面存在许多局限性,它们只能衡量线性相关关系,不能很好的度量变量间的非线性关系或同时对多个变量之间的相关性进行比较。近年来,Copula函数被广泛运用于分析多元随机变量之间的相关结构。运用Copula,可以灵活的构建多元分布函数,准确的描述多个变量之间的相依性,且对变量的分布不做约束
环境污染是当今世界最关注的问题之一,水污染的治理尤为重要。目前,光催化氧化法降解印染废水作为控制水污染的一种有效方法,已成为环境保护领域的研究热点。氧化锌(ZnO)因其优异的化学稳定性,无毒无污染,成本低廉,光催化效率高等优点,被认为是最有应用前景的光催化材料之一。但在治理印染废水的实际过程中,发现ZnO存在光吸收范围窄、光生电子-空穴对的复合速率高以及易团聚等缺陷。ZIF-8材料以Zn2+为配位
压缩感知理论突破奈圭斯特采样定理的限制,将采样与压缩步骤相结合,通过较少的测量值即可实现图像的精确重构。本文针对基于神经网络的图像压缩感知算法CSnet(Image CS Framework Using Convolutional Neural Network)[1]研究了不同注意力机制模块、损失函数和反卷积对CSnet网络重构效果的影响,主要内容如下:一、基于CSnet重构网络,引入注意力机制模
本文主要利用变分方法和Galerkin方法研究了有界光滑区域Ω上双调和方程弱解的存在性与多重性.在第二章,我们考虑了如下薄膜方程多变号解的存在性,其中Q是RN(N≥ 1)中有界光滑区域,Δ2u=Δ(Δu)是双调和算子,Δpu=div(|▽u|p-2▽u)是 p-Laplace 算子.且 p>2,λ ∈ R 是参数,f ∈ C(RN,RN)和g ∈ C(Ω × R,R)满足一些合适的条件,特别的.p
物联网是一种将计算机、通信、控制等多种技术融合的复杂系统,如今物联网信息产业已经形成完整的产业链,融入到社会生活的方方面面,物联卡作为物联网技术的核心,也早已被广泛应用于各类无线联网的智能终端设备中。然而,由于物联卡数量庞大且无需实名的特性,存在许多不法渠道和途径可进行物联卡交易,导致物联卡出现在灰色市场甚至违法犯罪中。这不仅威胁着物联网行业的长足发展,更是破坏了基于SIM的通信领域的市场规范。因
生物基锦纶56(PA56)是我国自2010年以来自主研发的新型生物基纤维材料,其原料来源广泛成本低,加工工艺低碳环保,是未来缓解石油基原料短缺的理想替代品。已有研究表明,PA56纤维综合性能优异,在高舒适性面料开发方面具有良好的发展前景。本文针对PA56纤维、纱线和机织物展开研究,以期为PA56在纺纱工艺及织物开发方面提供理论支撑和技术支持。研究的主要内容及结论如下:(1)PA56纤维性能研究:通
传统教学中,教师通常是按照单一的概念或知识点作为教学的基本单位,面临着知识碎片化、浅表化、形式化,忽视知识间的内在联系,忽视学习对象的主观体验等问题.基于深度学习的主题教学,既能体现出数学学科的整体性和系统性,又能回应教师课堂教学知识碎片化的问题,对于提高教学效果也具有重要意义.本研究从深度学习理论的角度出发,以函数单调性为例,进行主题教学设计研究,以期提高教学效果.论文首先梳理深度学习与主题教学
长久以来,采用何种准则来比较不同的部分因析设计一直是试验设计领域所关注的一个热点问题。一般地,在ANOVA模型下,常使用最小低阶混杂来评价具有定性因子的设计;当评价具有定量因子的设计时,通常建立多项式回归模型,而基于β-字长型的最小低阶β-混杂已经被证明是多项式回归模型下的合理准则。自被提出至今,研究者们对β-字长型的理论和应用均进行了广泛而深入的讨论。但是截至目前,低β-混杂设计的具体构造方法却