论文部分内容阅读
通常情况下,统计学研究的数据类型可以根据测量的尺度分为定性数据和定量数据两种类型。所谓的定性数据是一组表示事物性质、规定事物类别的文字表述型数据,在统计学上的包括分类数据和顺序数据。对于定性数据中的分类数据,主要研究的内容及结论除了基于logistics模型的回归分析之外,更多的是变量与变量间的关联关系或相关关系,特别对于多维的情形,各变量间复杂的关系和关联结构是研究的重点,也是难点。分类数据常见于社会科学各领域,特别是出现在各种调查问卷收集的结果,以及医学和心理学等方面的数据中。由于涉及的问题和因素众多,这些结果常常以高维列联表的形式呈现。对于高维列联表而言,直接作分析是很困难且很繁琐的,因此需要对其进行简化,这就需要研究变量之间的各种关系,包括是否独立?是否相关?是否既不独立也不相关?如果有关系,结构如何?是否可以用函数表示等等一系列问题。于是,我们从最基础的独立性检验问题出发展开讨论。用于独立性假设检验的卡方检验和似然比检验需要在大样本的数据容量下才能保证其参数的有效性和稳定性,而高维列联表必定会使每个单元格频数显著降低,解决这个问题可以有两个想法,一是收集更多的样本,增加每个单元格的数据容量,二是通过压缩变量增加单元格数量,即对原有的高维列联表进行压缩。对于第一个想法,关键是增加样本量,而当这些变量中有涉及到抽象的,现有数据集中不存在的变量时,就必须采取问卷调查的形式来获取相应数据,通常以这种消耗人力又耗时的方法得到的数据量是非常有限的。而第二个想法,自从Simpson于1951年提出辛普森悖论,对高维列联表的压缩成为了一个值得研究的问题,若对高维列联表压缩不当,就会出现虚假相关,虚假独立,辛普森悖论等问题。本文主要针对上述两个想法和相应问题提出对应的解决方法,主要研究的内容包括以下几点:(1)首先从三维列联表饱和对数线性模型出发,给出列联表可压缩性的相关定理,同时将该定理推导到高维列联表的情况,说明其结论同样适用于高维情形。该定理除了可以刻画变量间的关系外,在一定程度也解释了什么时候会发生“同质”现象,即两变量的发生比之比不会随着其他变量的取值不同而改变。(2)在已有的关于三,四维分类数据的列联表的压缩性定理基础上,我们通过借助对数线性模型和关联图的关系重点研究高维列联表的关联关系和压缩性定理。相比已有结论,我们的方法一方面可以自然推广到五维及以上的高维情形,另一方面建立更直观的关联图的可压缩性定理,以关联图的形式分析哪些变量是可压缩的,哪些是不可压缩的,给人以更直观的形式呈现。(3)在已有的三、四维列联表基于互信息的变量重要性排序的基础上,我们进一步研究基于条件互信息的变量可压缩性排序问题,研究表明,这两种排序结果是不一致的。其实除了本文提出的基于对数线性模型和关联图下的可压缩性定理,还有以其他标准来衡量一变量是否可压缩,如基于线性信息模型或信息熵下的压缩分析,但它们得出的答案可能会有差异,本文提出的可压缩性排序就像是一把衡量它们结果好坏的尺子。(4)对于不易进行数据收集的分类变量,通常得到的样本是有限的。为了获取更多有效的样本,本文提出先用Bootstrap抽样法产生多份一定量的数据集,分别模拟它们的对数线性模型得到模型的各个参数的估计向量,并进行聚类得若干份各参数估计的向量,以提供模型预测的选择。实验结果表明即使各参数与真实模型的各个参数有差异,但这若干个参数估计向量对应的模型的概率分布与真实模型的概率分布的K-L距离都较小,即概率分布很接近,并且这若干个向量中,越靠近对应参数的置信区间,它与真实的概率分布的K-L距离越小。探究分类变量间的关联关系及构建变量的模型是至关重要的,尤其对于分类数据中常见的高维列联表,或者是样本量不足的情况,既会增加分析的难度,也会使得变量间的关联关系和模型的不可信。本文就是以这种问题背景下,提出相应的压缩性定理,压缩性排序和利用Bootstrap抽样法增加样本的方法。