论文部分内容阅读
因果推断是一门在统计学科基础上发展起来的,专门用于研究事物间因果关系的学科。它在流行病学、医学、社会学、计量经济学以及行为学等学科领域运用非常广泛。因果推断的研究最初是利用有向无环图来表达原因与结果之间单方向的关系。但是图模型能够处理的数据量有限,基于图模型的相关算法多用于低维度的因果网络。为了处理更复杂更高维度的数据,学者们基于统计模型进行因果推断,使其可以处理线性、非线性、连续型、离散型等不同特点的复杂数据。这一结合使因果推断的运用范围更加广泛。混杂因素指的是因果推断中响应变量与预测变量的共同原因。若存在混杂因素就会导致因变量与自变量两者之间产生虚假关联,从而影响因果推断的结论。因此应该尽可能控制混杂因素才可以保证推断产生结论的正确性。但实际情况中人们无法控制潜在不竭的混杂因素。因此,研究混杂因素存在的条件下因果推断的稳健性具有重要的理论与现实意义。本文研究了混杂因素对部分线性模型因果推断稳健性的影响问题。在研究过程中,本文从参数显著性检验的角度出发,提出一个适用于部分线性模型的混杂因素影响衡量指标并计算相应的阈值,从而得到判断因果推断稳健与否的判断准则。最后通过数据模拟和实例分析来验证所提出理论的合理性。本文的结构如下:第一章介绍了本文的研究背景、理论及实用意义,并对国内外相关问题与模型的研究历史与现状进行了综述。第二章简要叙述了已有因果推断稳健性的理论,并对涉及到的一些重要定理和性质进行了简要介绍。第三章建立了部分线性模型因果推断稳健性理论。首先利用核技巧将部分线性关系映射到更高维的再生核希尔伯特空间中,使其在高维空间中线性可分;然后根据模型参数显著性检验统计量在含混杂变量与不含混杂变量时表达式的差异,量化混杂因素对部分线性模型中参数的影响,得到部分线性模型中混杂变量对其因果推断显著性结论的影响指标;最后根据部分线性模型混杂因素影响指标得到因果推断稳健与否的判断准则。第四章以模拟的方式说明了提出的部分线性模型因果推断稳健性理论的合理性。第五章以饮食习惯对高血压成瘾的因果推断稳健性分析,以及单灶性乳头甲状腺癌转移成因的因果推断稳健性分析两个医学实证案例,详述了本文提出的部分线性模型因果推断稳健性理论的运用情况。第六章为全文的总结与展望。综上所述,本文建立了关于混杂因素的部分线性模型因果推断稳健性理论,本文的研究成果在因果推断领域具有重要的理论意义及实际应用价值。