类间线性与非线性相关系数的研究及应用

来源 :山西大学 | 被引量 : 3次 | 上传用户:keenkingzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据具有海量性、多样性等复杂特征,数据的相关分析开始引起人们的重视。世界上任何一个事物都不可能是独立存在的,他们或多或少都有联系,而相关系数可以反映事物之间的相关程度,因此研究相关系数是非常有意义的。本文就是在大数据背景下对相关分析的进一步探究,取得如下成果:(1)相关系数的研究通常是基于普通的确定性集合,比如Pearson相关系数、偏相关系数等,对不确定性集合各元素间的相关关系研究较少。受到学者对模糊集相关系数研究的启发,把皮尔逊相关系数和粗糙集结合,开创性地提出了建立在粗糙集上的相关系数计算方法,鉴于皮尔逊相关系数的适用条件,该方法刻画的是粗糙集各等价类之间的线性相关关系。文中不仅证明了该方法的正确性,而且用实例验证了该方法的有效性。(2)传统的统计相关分析是用来刻画变量间的线性关系的,基于互信息的相关分析是用来描述两个变量间的非线性关系的,基于距离的相关分析是用来描述高维数据的非线性相关关系的。上述线性关系和非线性关系都是研究变量之间的,而本文想要研究类与类之间的相关系数,在探究过程中发现希尔伯特-斯密特独立准则(Hilbert-Schmidt Independence Criterion,HSIC)是研究变量之间的非线性关系的,且适用于更广泛的数据集类型,不再局限于粗糙集。于是基于HSIC的经验估计(HSIC0),提出根据类标签划分出的类与类之间的非线性相关关系的度量方法。文中选取了三种类型、共六组真实的数据集,且分别采用了线性核、多项式核、RBF核和Sigmoid核四种核函数对其进行验证,结果表明,该方法具有较好的可行性。总之,本文研究的是类与类之间的相关系数,其中线性相关系数是针对不确定性集合粗糙集的,非线性相关系数则适用于任意集合,而且都用真实的数据集验证了所提方法的有效性,具有很好的现实意义。
其他文献
为改善和提高高铝锌合金(ZA43)的力学性能和耐磨性,采用Ce基混合稀土对ZA43合金进行了变质处理,系统研究和探讨了稀土对ZA43合金的力学性能和耐磨损性能的影响规律。研究结果表明
文化创意产业是以创意与文化为基础,以知识产权的形成与应用为载体,以创造财富与增加就业机会为目标的产业集群,主要涉及文化艺术、影视传媒、信息服务、设计服务、时尚消费、咨
近年来,富阳市以创建省科技强市为动力,以创新能力培育为重点,有效发挥了科技创新在产业结构优化升级中的“助推器”作用,初步形成了以企业为主体、产学研相结合的创新体系,整体科
扶风县位于陕西省中部偏西,处于第二阶梯黄土高原,南缘渭河盆地中西部,素有陕西八百里秦川腹地、关中高新技术产业带的美名,属宝鸡市。扶风历史悠久、文化灿烂,是中华文明古代文化的发源地之一,同时它又是周秦汉唐的京畿重地。特殊的地理环境以及悠久的历史文化,造就了特殊的扶风方言,扶风方言属于关中方言,有着独特的风格和丰富的内涵。本文在查阅文献资料的基础之上,选择以扶风方言代词为研究对象,目的是从语音、语义、
实时荧光定量PCR(real-time fluorescent quantitative PCR,FQ-PCR)技术是在PCR定性技术基础上诞生起来的用不同荧光定量核酸的技术,具有敏感性高、重复性好、速度快、操作简便
[目的]分析慢性阻塞性肺疾病(COPD)、特发性肺纤维化(IPF)及COPD合并肺间质纤维化(PF—COPD)各组临床表现的不同特点,制定正确治疗方案。[方法]对照分析本院近3年诊治的6例PF-COPD、