论文部分内容阅读
随着数据收集能力的提升,专注于分析数据与数据之间相关性的网络数据研究越来越受到统计学家的重视。在网络数据中,将数据定义为节点(nodes),数据与数据之间的相关性定义为连接(edges or links)。网络连接是网络数据相比于传统数据的最重要的区别,所以对网络连接建模一直是网络数据研究中的热点问题。数据量大,维度大,关系复杂是网络数据的重要特点,这使得每个节点往往同时具有同质性(Homogeneity)和异质性(Heterogeneity)。同质性表明节点之间的性质相同,异质性表明每个节点具有自己独立的性质。刻画每个点的同质性和异质性是网络数据模型研究的关键。此外,网络结构的另一特点就是多元化,其中包括传统的单模网络,双模网络以及动态网络。这篇博士论文分别对以上三种网络的连接建模。建立的模型兼顾了节点的异质性和同质性。整体来看本文分为四大部分,第一部分从复杂网络的角度,研究由双模网络和单模网络构成的混合网络的异质性与同质性。第二部分从固定效应模型的角度,分析单模网络节点的异质性与同质性,第三部分从非参数的角度,分析单模网络节点的异质性与同质性。第四部分从动态网络的角度,分析动态网络之间的同质性和异质性。第一章主要介绍了本文的研究背景与选题意义,文献综述以及文章的整体框架。在第二章中,主要介绍了本文所需的一些基础知识,包括网络数据,混合模型和同质追踪的基本定义,以及模型推断的方法。第三章以混合网络连接为切入点。单模网络和双模网络作为两种常见的网络结构,目前对于这两者的研究都是相互独立的。但通常在双模网络中的单一行动者集内部会有单模网络结构,而这种单模网络结构会对双模网络连接产生影响。本文创新性地将两种网络结合在一起进行研究。利用Rasch模型表示双模网络的生成方式,进而提出全新的混合网络组群Rasch模型(Group Rasch Mixture Network Model),简记为GRMM。GRMM中的组群结构体现节点的同质性,而单模网络对双模网络的影响体现了节点的异质性,这表明GRMM同时考虑了节点的同质性和异质性的特点。基于模型对应的理论性质,本章从假设检验,组群总数选择和连接预测三个维度来对GRMM进行统计推断。由于模型中单模网络的影响会使得估计变得更为复杂,传统的EM算法不再适用,为此本文提出了改进的EM算法来估计GRMM。在组群总数选择时,由于双模网络的连接不但受到行动者集一中对应节点的组群影响,还受到该节点在单模网络中邻居的组群影响。针对这种情况,本文改进了传统的BIC方法,使用BIC的方法来选择组群总数。同时,我们利用假设检验的方法来判断两个网络之间的相关性。本章最后给出了适用于GRMM的连接预测方法。第四章以单模网络连接为切入点。单模网络是目前网络数据研究的热点。现有的单模网络统计建模分为两类,一类是用模型刻画网络数据的异质性;一类是用模型刻画网络数据的同质性。但是对于这两种性质融合建模的研究还有所不足。本章将两种性质相互融合,以限制条件更少的固定效应模型为初始模型,利用基于数据驱动(data-driven)的同质追踪法挖掘数据中的同质结构。传统的同质追踪方法仅适用于线性模型,本章将其推广至广义线性模型,并利用BIC的方法选择同质追踪法中的超参数。最后给出估计量的相合性和渐近正态性。利用理论性质,本文通过假设检验的方法,进一步挖掘了网络中的内在结构:第一,利用假设检验的方法挖掘有向图中的无向子图;第二,利用假设检验的方法判断网络中是否还有剩余的同质结构,进而从检验的角度提出一种超参数选择的方法。最后再用模拟对比实验的方法证明了本章提出方法的有效性,并将其应用于实际数据中。第五章以节点协变量对网络连接的影响为切入点。网络节点的协变量对网络连接的产生有很强的解释意义。但是由于理论上的复杂性,最近几年才逐渐有文章将网络节点的协变量应用到网络固定效应模型中。而且目前这些文章都将网络节点的协变量以线性形式加入到模型中。通常情况下,线性假设难以满足,本章将协变量以一种假设条件更弱的非参数形式加入到模型中,进而提出了网络数据非参数异质模型。本章将第四章中的网络数据同质结构加入到非参数异质模型中,更突出了异质性与同质性相结合的建模想法。结合极大似然估计,样条估计以及同质追踪法,提出带有同质结构的非参数异质模型的参数估计以及其对应的理论性质。在样条估计和同质追踪的估计过程中都会产生超参数,但是由于网络数据之间的相关性,传统的基于相互独立数据的交叉验证法将失效。这里结合网络数据的特殊结构,提出了一种全新的交叉验证方法来选择估计过程中产生的超参数。第六章以动态网络为切入点。动态网络是目前比较受关注的热点问题。结合第四章提出的固定效应模型来对动态网络进行建模。为了体现动态网络在时间上的相关性,本章将同质结构加在了时间维度上,进而提出了带有同质结构的动态网络模型。在模型估计上,提出了一种对多维向量进行同质追踪的三步估计法,来找到同质结构并准确估计出模型的各个参数。本章最重要的贡献是建立了该模型下完整的理论性质。体现了考虑动态网络对模型参数收敛速度的提升,以及考虑同质结构对模型参数收敛速度的提升。最后,在第七章对本文进行了总结并对潜在的一些研究方向进行了阐述。