【摘 要】
:
实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据被广泛应用于医学、经济学、气象等大数据领域。超高维数据的特点是维数P远大于样本量n,这使得超高维数据的计算成
论文部分内容阅读
实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据被广泛应用于医学、经济学、气象等大数据领域。超高维数据的特点是维数P远大于样本量n,这使得超高维数据的计算成本大大增加,统计精度和模型算法的稳定性大大降低。这导致传统的一些降维分析方法,如:主成分法、最优子集法、变量选择方法等,无法准确有效的解决超高维数据问题。而超高维问题一般具有稀疏性特征,即只有少数协变量与响应变量有相关性,这使得对其的快速降维可以实现。纵向数据反应了数据个体间独立,个体内相关的特点,当其与超高维问题结合时,对研究工作者提出了新的挑战。本文基于超高维纵向数据的结构特征,在稀疏性假设下,研究了超高维线性模型和可加模型下在纵向数据背景下的特征筛选问题。在超高维线性模型中,推广确定独立筛选SIS(Sure Independence Screening)方法,利用纵向数据的组内相关结构矩阵,构造了带有工作相关矩阵的MSIS方法,并证明了该筛选过程满足确定性筛选性质,能够以概率1筛选出真实变量集合。在纵向数据超高维可加模型下,推广非参数独立筛选NIS(Nonparametric independence screening)方法,引入工作相关矩阵,借助二次推断函数QIF(quadratic inference function),避免未知工作相关矩阵的直接估计,构造重要变量的非参数边际相关度量指标,建立QIF-NIS筛选过程。理论证明表明所提出的方法具有确定筛选性质。本文创新性的基于纵向数据组内相关结构构造了超高维问题下的边际特征筛选方法,理论证明所提出降维筛选过程满足确定性筛选性质之外,还从数值模拟上研究了其有限样本性质,结果表明从理论和数值模拟上,所提出方法都具有优良表现。
其他文献
把自组织理论应用到排球教学中,通过对教育学、社会学、心理学等相关研究,结合排球教学的规律和特点,探讨排球教学自组织的特性以及学生自组织能力的构成等因素,有助于教师更好地
目的测定头孢米诺和其他14种抗菌药物对产与不产超广谱β-内酰胺酶(ESBLs)菌株的体外抗菌活性.方法采用琼脂稀释法测定头孢米诺和其他14种抗菌药物的最小抑菌浓度(MIC),纸片
声像档案是档案实体的一个重要组成部分,是人类活动中与形的真实记录,它以胶片和磁性材料为载体,辅以文字叙述,记载了重大历史事件和重要历史、科技活动的实况以及有关人物的活动
随着现代生物-心理-社会医学模式的发展,护理工作的范围由单纯的疾病护理转向以"人"为中心的全面护理,随着护理范围的扩大及医学科学的飞速发展,大多数护理人员的知识结构和
通过查阅相关资料对体育与媒体结合的过程中二者的关系进行客观的分析。体育和媒体不仅存在着互惠互利的共生关系,也烦频地出现不期的负面的相互影响。通过分析体育与媒体结合
本文根据乙型肝炎(HB)发病特点,报道了近三年来1326例应征入伍青年的乙肝表面抗原(HBsAg)携带情况,结果表明,乙肝表面抗原阳性率比总体青年人群中高5.35%;为了减少感染机会,除接种乙肝疫苗外,加强血液,血
任何原因导致的心包腔内液体积聚,以至引起心包腔内压力增加可造成心包压塞,导致心排血量降低.对此处理,过去临床多采取①用针头穿刺;②经剑突下心包切开;③部分或广泛的外科
由于传统的计划经济体制依然影响着行政事业单位财务管理,各事业单位不同程度存在财务管理认识不到位、财务管理粗放、对财务管理的职能尚未真正领会等现象。有必要采取有利措
目的:了解南昌市小学教师疲劳和慢性疲劳综合征(CFS)的流行现状和分布特征;探讨CFS的相关因素;提供依疲劳自评量表(FSAS)筛查CFS的最佳诊断界值;为针对小学教师开展CFS的防治工作和进
对基建审计工作的重要性进行了论述从工程预结算、合同、招标书审计方面提出了如何做好基建审计工作具体办法。