论文部分内容阅读
发源于计量经济学领域的Granger因果分析(Granger Causali-ty, GC)作为基于向量自回归的一种时间序列分析工具,以及它在信息论方面基于条件共信息的相似推广:转移熵(Transfer En-tropy, TE),近年来被广泛应用于神经科学、气象科学、生理医学等领域的数据分析。特别是在功能磁共振成像(fMRI)数据的研究中,因为Granger因果的直观性和易用性,以及其数据驱动的、非介入的本质,它已经被普遍用于构建各脑区之间的效应连接(effective connectivity)网络,与通常基于统计学相关如皮尔逊相关或共信息(mutual information)所构建的无方向的功能连接(functional connectivity)有所不同,效应连接侧重于考察不同脑区活动信号之间的因果性,而这种因果性的本质是建立在时间先后顺序上的一种对时间序列未来的可预测性的变化趋势。两者的区别在于,功能连接模型反映的是一种瞬时的,无方向的,统计学上的相关性,通常采用的方法有独立成分分析(ICA)、相关测度和同步测度等等。而效应连接模型反映的是一种潜在的动力学过程,考量的是不同的神经活动的现时状态同彼此历史状态的相关性,常见的方法包括动力学因果模型(DCM)以及Granger因果分析和转移熵。本文的研究工作重点涉及的是Granger因果和转移熵,主要贡献包括以下三个方面:一、讨论了基于一阶向量自回归模型的符号路径系数法(Signed-Path Coefficient Causality)在fMRI数据分析方面的适用性。与传统的基于预测残差的Granger因果测度不同,近年来符号路径系数法作为一种新的Granger因果分析方法被提出并被一系列神经科学领域的研究者所采用,通过估计一个双变量或多变量的一阶向量自回归模型的回归系数,将计算得出的正的(或负的)路径系数分别定义为脑区之间的激励(或抑制)影响。本文将通过一系列模拟自回归模型和真实fMRI数据的计算结果指出,在某些条件下这种关于因果的定义和运算是有缺陷的,将会不可避免地导致错误的推断。因为当用一阶自回归模型去拟合一个数据生成过程的阶数高于一的数据时,符号路径系数的结果同真实的因果关系并不总是一致的。而由于通常fMRI数据有限的长度,我们需要重视由信息准则决定的最优阶数随时间序列数目的变化趋势(并非总是一阶)以及预处理过程中带宽滤波对数据的影响,以上两者都会严重影响到最终结果。因此当利用路径符号系数法计算因果时我们必须小心避免错误的推断和诠释。二、通过利用一个Granger因果与转移熵在高斯变量下的等价关系,我们研究并比较了这两种因果测度在fMRI/EEG的原始数据和替代数据(surrogate data)中的偏离,其中替代数据只保留了时间序列间的线性相关关系。在fMRI数据中,由替代数据计算得出的因果并没有发生显著的变化,表明这种因果关系中不存在太多的非线性关系,因此利用基于线性相关假设的Granger因果来进行分析是合理的。然而在EEG中的转移熵计算表明原始数据和替代数据的结果差异较大,意味着非线性程度较高的EEG数据同样存在着高阶的非线性因果关系,此时Granger因果无法捕捉到这些因果结构。因此在这种情形下为了避免因果信息的损失我们应当采用非线性的转移熵测度来分析数据。三、为了更清晰地描述时间序列之间的因果结构,需要一些对于模型参数的缩减策略以构建一个更精确的模型。我们给出一个优化的搜索算法来削减冗余变量以使模型达到最大的预测能力。对此,计量经济学领域通常采用的方法是对于一些具体的自回归系数作零限制(zero-restriction),即所谓的子集回归法(subset regres-sion),而物理学领域则利用非一致内嵌(non-uniform embedding)的方式来重建状态空间,以避免维度灾难(curse of dimensionality)从而给出更精确的转移熵的估算。两者的关键都在于建构一个更加精简和高效的因果网络,而所用的传统方法是在各个时间序列所张成的历史空间中进行贪婪搜索(greedy search)来选出那些有显著贡献的变量。本文通过应用特征选择算法工具改进了在建构因果网络时的搜索与评估的效能,同前人的算法相比,在保证敏感度的同时提高了特异性,从而减少了计算时长。