论文部分内容阅读
在大数据时代,数据具有海量性、多样性等复杂特征,数据的相关分析开始引起人们的重视。世界上任何一个事物都不可能是独立存在的,他们或多或少都有联系,而相关系数可以反映事物之间的相关程度,因此研究相关系数是非常有意义的。本文就是在大数据背景下对相关分析的进一步探究,取得如下成果:(1)相关系数的研究通常是基于普通的确定性集合,比如Pearson相关系数、偏相关系数等,对不确定性集合各元素间的相关关系研究较少。受到学者对模糊集相关系数研究的启发,把皮尔逊相关系数和粗糙集结合,开创性地提出了建立在粗糙集上的相关系数计算方法,鉴于皮尔逊相关系数的适用条件,该方法刻画的是粗糙集各等价类之间的线性相关关系。文中不仅证明了该方法的正确性,而且用实例验证了该方法的有效性。(2)传统的统计相关分析是用来刻画变量间的线性关系的,基于互信息的相关分析是用来描述两个变量间的非线性关系的,基于距离的相关分析是用来描述高维数据的非线性相关关系的。上述线性关系和非线性关系都是研究变量之间的,而本文想要研究类与类之间的相关系数,在探究过程中发现希尔伯特-斯密特独立准则(Hilbert-Schmidt Independence Criterion,HSIC)是研究变量之间的非线性关系的,且适用于更广泛的数据集类型,不再局限于粗糙集。于是基于HSIC的经验估计(HSIC0),提出根据类标签划分出的类与类之间的非线性相关关系的度量方法。文中选取了三种类型、共六组真实的数据集,且分别采用了线性核、多项式核、RBF核和Sigmoid核四种核函数对其进行验证,结果表明,该方法具有较好的可行性。总之,本文研究的是类与类之间的相关系数,其中线性相关系数是针对不确定性集合粗糙集的,非线性相关系数则适用于任意集合,而且都用真实的数据集验证了所提方法的有效性,具有很好的现实意义。