基于偏距离相关的高维成分数据变量选择方法研究

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:hxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
成分数据是仅携带相对信息的多变量观测数据,由组成整体的各个部分的比例或百分比构成。在微生物学中广泛存在着高维成分数据。成分数据由于“非负性”和“定和性”的特征使得其成为特殊的数据集,因此在对其进行统计研究分析中不能盲目地运用传统高维欧式数据的统计方法。如何快速有效地从微生物高维成分数据中寻找出重要的预测变量,是值得深入探讨研究的问题。距离作为研究每对微生物样本之间的度量,在微生物组数据的统计分析中起着重要的作用,分析的结果依赖于距离测量的选择。因此论文以高维成分数据这一特殊数据类型作为研究对象,构建基于偏距离相关的高维成分数据变量选择方法,丰富高维成分数据变量选择方法,且在实际应用方面有一定的研究价值。论文借鉴Li等(2012)提出的基于距离相关的变量选择方法(sure independence screening based on the distance correlation,简称DC-SIS方法)的基本思想,提出一种新的基于偏距离相关的分阶段的高维成分数据变量选择方法(phased sure independence screening based on partial distance correlation,简称PDC-PSIS(Aitchison)方法)。通过数值模拟得出PDC-PSIS(Aitchison)的性能以及对于分组预测变量的筛选效果,并以Xie等(2016)存储在欧洲生物信息研究所中的250名成年双胞胎志愿者的肠道菌群丰度数据为研究对象进行实证分析,探究PDC-PSIS(Aitchison)方法在高维成分数据变量选择的有效性。论文的具体研究内容包括:(1)考虑成分数据的特殊性,论文在基于偏距离相关的未经clr变换的高维成分数据变量选择PDC-SIS(crude)方法的基础上,利用中心化对数比clr变换的度量不变性来消除成分数据定和限制的未迭代的PDC-SIS(Aitchison)方法,然后在此基础上引入成分数据集仅含有数据的相对信息,用含有二维向量的子成分数据取代一维向量作为初始条件向量,并通过逐一增加作为条件向量的子成分的向量维数,不断迭代,对高维成分数据进行变量选择,从而提出PDC-PSIS(Aitchison)方法。(2)通过数值模拟,与视高维成分数据为普通数据的不经变换的直接利用偏距离相关进行变量选择的PDC-SIS(crude)、PDC-PSIS(crude)方法和视成分数据为特殊数据的经过clr变换的单阶段偏距离相关变量选择PDC-SIS(Aitchison)和分阶段的高维成分数据变量选择方法PDC-PSIS(Aitchison)方法进行比较,得出PDC-SIS(Aitchison)、PDC-PSIS(Aitchison)方法的有效性和适用范围。(3)将Xie等(2016)报告的250对成年双胞胎大肠杆菌丰度数据用PDC-SIS(crude)、PDC-PSIS(crude)和PDC-SIS(Aitchison)、PDC-PSIS(Aitchison)方法进行实证分析,并将所得到的结果与利用微生物技术得出的已有研究结果和通过其他线性变量选择方法得出的结果进行分析比较,评估PDC-PSIS(Aitchison)方法的有效性和准确性。研究结果表明:(1)由于PDC-SIS(crude)和PDC-PSIS(crude)方法忽略了成分数据的特性,因此这两种变量选择方法在模型中几乎不能识别出与响应变量有关的重要预测变量。由于PDC-PSIS(Aitchison)同时考虑到成分数据包含的是相对信息,而不是绝对信息,因此该方法在线性或非线性模型中都可以有效地筛选出重要的预测变量,且对分组预测变量也有一定地适用性;当两个随机变量独立时,PDC-PSIS(Aitchison)对于重要预测变量的筛选效果优于PDC-SIS(Aitchison)。(2)PDC-SIS(Aitchison)方法对变量选择的效果主要受到成分数据的成分之间的相关性的影响,因此该方法适用于相关性较大的成分数据集。(3)在成分数据变量选择方法效果的比较中,在维度一定时,PDC-PSIS(Aitchison)方法的变量选择效果随着成分数据相关性的增加而提高,其变量选择效果优于PDC-SIS(Aitchison)和DC-SIS(Aitchison)方法;在相关性一定时,对不同维度的成分数据进行变量选择中,PDC-PSIS(Aitchison)方法始终优于PDC-SIS(Aitchison)和DC-SIS(Aitchison)方法。
其他文献
学位
从国内外企业发展的历程来看,内部控制的建立与完善是保持企业健康发展的基石。2010年开始,政府对建筑装饰类企业的管理、内部控制等制定了政策,要求各企业建立健全内部控制体系。并且在建筑装饰行业越来越规范的背景下,各个建筑装饰企业越来越重视内部控制的完善,通过建立与完善内部控制体系,完善公司的经营管理,减少公司面临的各类风险。对于S公司而言,业务规模不断增长,正在进国际化战略。在S公司快速发展的情况中
银行对小微企业贷款风险控制能力的提升,是保障小微企业贷款业务持续发展的基础,也是银行之间展开小微企业贷款业务竞争的核心竞争力。因此,提升小微企业贷款业务的风险控制能力,是各银行较为关注的问题。对于CD银行而言,小微企业贷款业务增长迅速,不良率也迅速攀升,为此,CD银行十分关注提高小微企业贷款的风险控制水平。本文以CD银行为研究对象,分析小微企业贷款风险控制问题,并提出改善对策。首先,分析CD银行小
学位
2019年6月13日,我国科创板正式开板,并于7月22日该板块第一批公司完成上市。科创板设置多样化,与主板差异化发展,协同其他板块构建资本新市场。对于在科创板上市的企业,市场更认可其创新性和成长性,对财务要求有所放宽。与此同时,这也直接导致了企业的财务质量存在不确定性,连同股价的波动幅度增大。因此,合理的企业上市定价对科创板的稳健运行有着至关重要的作用。首次公开募股(Initial Public
学位
智慧医疗的发展正改变着医疗卫生行业,国家相关政策的支持、智能手机的普及以及5G技术在医疗行业的应用正在为人们带来更多全新的医疗场景和前所未有的诊疗手段,智慧医疗APP不断的进入人们的生活,为人们的生活带来了很多便利,同时也存在很多问题。本文研究对象GJK智慧医疗APP是贵州省智慧医疗APP之一,覆盖贵州省内各大州市,但存在产品定位模糊、产品设计不完善、产品定价偏高、产品促销组合不合理等营销问题,在
学位
贵州地处云贵高原,高山牧场星罗棋布,加之气候温和、降雨充沛,优越的自然地理环境,为贵州生态畜牧业的繁荣和发展打下了良好的基础。近年来国家先后出台多项牛羊产业扶持政策,力促贵州牛羊产业的发展,国内的牛肉市场需求空间大,是企业进一步发展牛肉产业、推进牛肉产业链体系建立的最佳时期。但是贵州省内养殖企业众多,加之进口牛肉大批量涌入,对国内的牛肉生产企业的发展造成压力,如果没有一套适合企业自身发展和可执行性
由于我国特殊的经济体制,上市公司的股权结构发展有着比较特别的现象:股权普遍高度集中化且国有持股占绝对经济优势。回顾改革开放以来的经济体制改革历程,股权的分置改革终结了二元股权结构,可以说这次改革是一个划时代的节点符号且实现了证券市场的全流通。在此背景之下,随着资本市场的日趋成熟,行业资源的集中化,并购重组事件也日益频繁。由于并购的过程往往涉及股权的转移,所以股权交易定价发挥着越来越重要的角色,而评