论文部分内容阅读
在如今这个信息爆炸的时代,海量数据已经成为当今世界最显著的特征之一,研究数据之间的关联性成为科学界的研究热点。为了衡量事物之间是否关联以及如何关联,统计相关性分析应运而生。其中使用较为广泛的有皮尔逊(Pearson)系数,斯皮尔曼系数(Spearman)和肯德尔(Kendall)系数等,但是这些相关性分析方法由于自身的局限性,并不能对广泛的关系类型做出检测。因此,2011年Reshef等人引入了一种新的相关性分析方法——最大信息系数(the maximal information coefficient,MIC),该方法一经提出便在科学界引起了广泛的讨论。最大信息系数相较其他的统计量而言,拥有两个优良性质——广泛性和均匀性。但是作为计算机密集型(computer-intensive)方法,最大信息系数的精确解计算难度非常大,为了能够得到变量之间最大信息系数的近似解,Reshef等人提出了两变量MIC近似算法。本文主要针对Reshef等人提出的两变量最大信息系数的定义及近似算法进行分析,并对其存在的缺陷不足做出改进。首先,结合相关文献,本文分析研究了统计相关性领域的背景及国内外研究现状,着重关注最大信息系数的相关研究,包括两变量最大信息系数的定义,现有的近似算法及其两个优良性质,并与其他流行的相关性分析方法进行比较,进一步加深对最大信息系数的认识。其次,通过进一步的研究与分析,本文引入了“粒度”的概念来解释最大信息系数方法的本质,并借此来说明最大信息系数计算过程中归一化的实质以及计算最大信息系数的算法核心--网格划分的实质并给出网格划分的原则,同时,通过实验分析,给出最大信息系数的两个优良性质——广泛性和均匀性的可视化,更进一步加强对于最大信息系数的理解。然后,针对现有的两变量MIC近似算法在大数据集下计算效率低下的不足,本文结合K-Means聚类算法提出了适应海量数据集的两变量MIC聚类算法,将两变量最大信息系数计算算法的时间复杂度从O(n2.4)降到了O(n1.6,提高了计算效率,并设计实验对该算法的广泛性和均匀性进行了验证,验证了该算法的有效性。最后,针对现有的两变量MIC近似算法无法计算单变量和多变量之间最大信息系数的不足,本文将现有的两变量最大信息系数的定义拓展到了多变量层面,给出了相应的单变量和多变量之间最大信息系数的定义式,并提出了能够计算单变量和多变量之间最大信息系数的多变量MIC近似算法,同时设计实验对该算法的广泛性和均匀性的验证,使在大数据集中挖掘单变量和多变量之间的最大信息系数成为了可能。