高维分类数据的关联关系及可压缩性分析

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:hukuikui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常情况下,统计学研究的数据类型可以根据测量的尺度分为定性数据和定量数据两种类型。所谓的定性数据是一组表示事物性质、规定事物类别的文字表述型数据,在统计学上的包括分类数据和顺序数据。对于定性数据中的分类数据,主要研究的内容及结论除了基于logistics模型的回归分析之外,更多的是变量与变量间的关联关系或相关关系,特别对于多维的情形,各变量间复杂的关系和关联结构是研究的重点,也是难点。分类数据常见于社会科学各领域,特别是出现在各种调查问卷收集的结果,以及医学和心理学等方面的数据中。由于涉及的问题和因素众多,这些结果常常以高维列联表的形式呈现。对于高维列联表而言,直接作分析是很困难且很繁琐的,因此需要对其进行简化,这就需要研究变量之间的各种关系,包括是否独立?是否相关?是否既不独立也不相关?如果有关系,结构如何?是否可以用函数表示等等一系列问题。于是,我们从最基础的独立性检验问题出发展开讨论。用于独立性假设检验的卡方检验和似然比检验需要在大样本的数据容量下才能保证其参数的有效性和稳定性,而高维列联表必定会使每个单元格频数显著降低,解决这个问题可以有两个想法,一是收集更多的样本,增加每个单元格的数据容量,二是通过压缩变量增加单元格数量,即对原有的高维列联表进行压缩。对于第一个想法,关键是增加样本量,而当这些变量中有涉及到抽象的,现有数据集中不存在的变量时,就必须采取问卷调查的形式来获取相应数据,通常以这种消耗人力又耗时的方法得到的数据量是非常有限的。而第二个想法,自从Simpson于1951年提出辛普森悖论,对高维列联表的压缩成为了一个值得研究的问题,若对高维列联表压缩不当,就会出现虚假相关,虚假独立,辛普森悖论等问题。本文主要针对上述两个想法和相应问题提出对应的解决方法,主要研究的内容包括以下几点:(1)首先从三维列联表饱和对数线性模型出发,给出列联表可压缩性的相关定理,同时将该定理推导到高维列联表的情况,说明其结论同样适用于高维情形。该定理除了可以刻画变量间的关系外,在一定程度也解释了什么时候会发生“同质”现象,即两变量的发生比之比不会随着其他变量的取值不同而改变。(2)在已有的关于三,四维分类数据的列联表的压缩性定理基础上,我们通过借助对数线性模型和关联图的关系重点研究高维列联表的关联关系和压缩性定理。相比已有结论,我们的方法一方面可以自然推广到五维及以上的高维情形,另一方面建立更直观的关联图的可压缩性定理,以关联图的形式分析哪些变量是可压缩的,哪些是不可压缩的,给人以更直观的形式呈现。(3)在已有的三、四维列联表基于互信息的变量重要性排序的基础上,我们进一步研究基于条件互信息的变量可压缩性排序问题,研究表明,这两种排序结果是不一致的。其实除了本文提出的基于对数线性模型和关联图下的可压缩性定理,还有以其他标准来衡量一变量是否可压缩,如基于线性信息模型或信息熵下的压缩分析,但它们得出的答案可能会有差异,本文提出的可压缩性排序就像是一把衡量它们结果好坏的尺子。(4)对于不易进行数据收集的分类变量,通常得到的样本是有限的。为了获取更多有效的样本,本文提出先用Bootstrap抽样法产生多份一定量的数据集,分别模拟它们的对数线性模型得到模型的各个参数的估计向量,并进行聚类得若干份各参数估计的向量,以提供模型预测的选择。实验结果表明即使各参数与真实模型的各个参数有差异,但这若干个参数估计向量对应的模型的概率分布与真实模型的概率分布的K-L距离都较小,即概率分布很接近,并且这若干个向量中,越靠近对应参数的置信区间,它与真实的概率分布的K-L距离越小。探究分类变量间的关联关系及构建变量的模型是至关重要的,尤其对于分类数据中常见的高维列联表,或者是样本量不足的情况,既会增加分析的难度,也会使得变量间的关联关系和模型的不可信。本文就是以这种问题背景下,提出相应的压缩性定理,压缩性排序和利用Bootstrap抽样法增加样本的方法。
其他文献
在美军攻占马绍尔群岛之际,尼米兹即决定绕过日军坚固设防的加罗林群岛,直接向马里亚纳群岛开刀,以夺取对西太平洋的海、空控制权,切断日本本岛与南太平洋之间的海上交通线,
<正>~~
本文在对实际地址数据分析和研究的基础上,给出了城市地理编码的方法,即空间参照数据库的建立、地址拆分及标准化、地址匹配方法的实现及其容错处理,最后设计实现一个实际应
为了探讨金芩芍注射液含量测定的不确定度分析评定,通过分析测量过程,建立数学模型,确定不确定度来源,评价各标准不确定度分量合成标准不确定度,评定扩展不确定度,给出不确定
在言语交际中,词语除了具有表达理性意义的基本功能外,还有标示语体、形象、角色等多种表达附加修辞意义的功能.这些词语的附加修辞功能在新闻标题中,既新颖、又鲜活,且能够"
价值链成本管理旨在打破传统制造企业成本管理理念,构建新的价值链成本作业模式,提高价值链作业的增值程度,扩大企业的产品效益。同时多维立体的价值链成本控制,能够协调优化
<正>7月4日综合性招聘会7月7日综合性招聘会7月11日2018年吉林省支柱产业夏季招聘大会7月14日综合性招聘会7月18日综合性招聘会7月21日综合性招聘会7月25日吉林省服务业人才
由于水中杂质的存在,水下图像往往具有对比度低、颜色退化和背景噪声干扰严重等特点。依托于西北工业大学高峰体验计划,研究了传统的图像增强处理方法及小波变换在水下图像增强
目的探讨微创置入陶瓷棒联合口服益肾消痛丸治疗早中期股骨头坏死的近期疗效。方法纳入自2014-10—2016-06在河南省中医院关节科诊治的42例(45髋)股骨头坏死,观察组21例(22髋
随着人们欣赏水平的提高,电视广告也需要跟上时代的步伐.数码技术的适时导入,使创作者丰富的想象空间得以实现.由于电影的发展直接引导着电视广告的走向,由数码技术在电影中