【摘 要】
:
在基因组学的下一代测序技术研究过程中涉及到一个单变量与高维随机向量之间的独立性检验问题,为了更好地解决这个问题,我们从统计学的相关理论知识出发,提出一个统计量来对其进行检验。鉴于变量相关性在统计学研究中的重要意义,本文首先介绍了几种常用于独立性检验的相关系数,包括皮尔森积矩相关系数、斯皮尔曼秩相关系数和距离相关系数等。通过一系列模拟比较,说明距离相关系数在揭示两变量间非线性关系时有着独到的优越性。
论文部分内容阅读
在基因组学的下一代测序技术研究过程中涉及到一个单变量与高维随机向量之间的独立性检验问题,为了更好地解决这个问题,我们从统计学的相关理论知识出发,提出一个统计量来对其进行检验。鉴于变量相关性在统计学研究中的重要意义,本文首先介绍了几种常用于独立性检验的相关系数,包括皮尔森积矩相关系数、斯皮尔曼秩相关系数和距离相关系数等。通过一系列模拟比较,说明距离相关系数在揭示两变量间非线性关系时有着独到的优越性。由于距离协方差的构造方式,使其具有一些很好的性质,一是可以直接计算两个不同维度变量之间的距离相关系数;二是只要距离相关系数为0,就可以说明被检验的两个变量之间相互独立,这些都是其它用于检验相关性的准则所不具有的。所以,本文将基于距离系数来构造这个新的检验统计量。由于原始问题具有高维背景,首先考虑现有的用于两组变量间独立性检验的基于距离相关系数的检验统计量在高维数据下的表现。通过模拟可以说明Szekely等人2007年提出的检验统计量Zn在应用于独立性检验时也存在一些不足,比如其在高维情况下会丧失有效性,即当变量的维数很高时,即使两变量独立,距离相关系数也会接近于1。此外,考虑Szekely等人2013年提出的用于两个高维向量间独立性检验的统计量nT,通过数值模拟说明服从学生分布的统计量nT虽然在两个高维随机变量的独立性检验中有不错的效果,但是当其中一个高维向量退化成为一维随机变量时,这个检验失效。进一步通过查阅文献发现现有的基于距离相关系数的检验统计量都不适用于本文所提出的问题,所以本文基于距离协方差构造了一个新的检验统计量Un,用于检验一维随机变量与高维随机向量之间的独立性。并在向量维数p和样本量n趋于无穷的情况下,通过鞅极限定理证明了在原假设下统计量的渐近正态性。模拟结果表明,新的检验过程能够较好地控制检验的水平,且有较优异的功效表现。
其他文献
在中央经济工作会议提出的“六稳”方针中,“稳金融”的底线是要求不发生系统性金融风险,并稳步推动金融市场的发展。商业银行作为核心金融机构,其信贷风险管理质量对金融市场的稳定有重大影响,特别是随着近年来中小企业的快速发展及其伴随而来的银行信贷资源需求与日俱增,中小企业的信贷风险管理逐渐成为商业银行信贷风险管理之重点。信贷风险评价体系作为商业银行信贷风险管理的基础性环节,直接关系到信贷风险管理质量。商业
近年来,随着深度学习算法的效果变得越来越好,许多学者开始着眼于深度学习算法的稳定性。其中的一个方向叫对抗样本。对抗样本是指在原始数据上添加一个特定的噪声(噪声的比例越小越好,能被模型识别而不被人眼察觉)使得损失函数最大化,所形成的输入样本,会导致模型以大概率给出一个错误的结果。对抗样本的生成又被称为对抗攻击。现如今,深度神经网络已经成为了人们生活中不可或缺的一部分,人脸识别、语音转文字等都是日常生
医疗搜索作为广大群众搜索场景下的刚需,是普通用户获取优秀医疗资源最为便捷的渠道。医药领域数据的爆发式增长给研究人员提供了丰富的知识,是重要的研究资源。医疗搜索的重点就是从海量庞杂的医药领域数据中快速高效地获取信息,而命名实体关系抽取就是文本数据处理工作中一项基础且重要的环节。在医药领域内,准确识别说明书中的禁忌症和适应症实体对于构建合理用药规则,构建完善的医药领域知识库有重要意义。但是,由于医药领
多重检验是目前高维统计推断的领域中研究的热点之一,并在临床医学、基因检测、教育学等多领域中均有广泛的应用。同时对多个假设进行检验是多重检验的实质,它常常被用来对来自大量总体的某个参数或多个参数的水平进行比较。当多重检验中的一个假设被拒绝,我们通常希望对该参数构造置信区间,从而确定该假设对应真值的取值范围。我们将多重检验中被拒绝的假设对应的参数称为选择后参数,为选择后参数构造能控制FCR的置信区间也
“碳标签”(Carbon Labelling)是一种将商品在生产、流通过程中排放的温室气体排放量,在产品标签上用量化指数标示出来的方法。全球已有11个国家正在积极建立“碳标签”制度。我国也已经形成了相关的团体标准和试点成果。“碳标签”的形成涉及产品生产、加工、流通过程中的多个环节,导致碳数据归集困难、真实性难以保障和易被篡改。为此,本文提出一种基于区块链和隐私计算技术,从供应链的视角构建“碳标签”
随着位置采集和移动通信技术的不断进步,每天有大量的轨迹数据被采集并收录,因此在过去的十数年中,轨迹数据挖掘工作进展迅速,而异常轨迹检测是其中很重要的一部分。目前中国的汽车保有量、销售量都位于世界前列,与此同时,国家重大专项中的车联网项目正在大力发展中,车辆轨迹数据是日常能接触到的最广泛、最普遍的轨迹数据之一。本文研究的问题是通过轨迹数据挖掘来进行轨迹异常检测,即使用一个地区车辆出租公司出租出去的车
随着大数据时代的发展,尤其是深度学习的研究,使得人工智能产品逐渐进入人们的视野,而图像描述则是近年来一大研究热点,可应用于网络图片数量爆炸式增长背景下的图像检索,也可应用于自动驾驶技术中的交通标志描述,还可应用于医疗领域中视觉障碍人士的生活辅助等等。图像描述任务是一种融合了图像信息和文本信息的多模态任务,目的是使计算机自动生成一句对图片的文本描述,因此如何准确提取图像特征、生成可读性高且准确的文本
民以食为天,食品饮料作为必须消费品的主要成分,一直以来以市场广阔、技术更新迭代慢、利润稳定等特点,在金融市场中颇受投资者的喜爱。我国金融市场虽然起步较晚,相比欧美等发达国家的金融市场还有较大差距,但随着我国改革开放和世界经济全球化发展,我国的金融业发展迅速。而且随着科技的发展,数据搜集变得越发容易了,我们可以轻易地提取股票市场的各种交易数据,这些数据具备大量、高频等特点,可以反映一个国家或地区的经
多模态学习是当下机器学习中特殊且重要的一类,旨在利用多种模态的数据信息采用机器学习方法进行信息挖掘和预测的学习方法。其常用的技术方向分为多模态表示学习,多模态翻译,多模态对齐,多模态融合,多模态协同学习等。其中,多模态融合是多模态学习的重要部分,通常在决策型任务中对模型的效果起着至关重要的作用,与多模态表示学习和多模态对齐有着不可分割的关系。多模态融合在过往的研究中通常依照融合时间分为早期融合、中