论文部分内容阅读
随着信息技术的飞速发展及各学科基本理论和技术的不断进步,复杂性和复杂科学成为最近几年各领域的重要研究课题。复杂网络是复杂系统最广泛的建模形式,其研究的任务是探讨各种看似互不相同的各领域网络(包括生物、社会、信息等)之间的共性和处理它们的普适方法。对复杂网络的定量和定性特征的科学理解,已经成为网络时代科学研究中一个极其重要的挑战性课题。复杂网络模式在子结构粒度上刻画复杂网络拓扑结构性质,是理解复杂系统结构与功能的重要途径。可以有效地刻画复杂系统演化规律,并预测其发展趋势。例如网络模体与模块结构构成了复杂网络的基本构造块和重要功能单元;动态模式与动态模块结构可以用来刻画复杂系统的演化规律,预测未来的演化趋势。由于复杂网络是用图这一数学工具来表示的,模式挖掘中涉及到图的子图搜索、同构计算、聚类分析等基本计算问题,计算复杂性高。因此研究复杂网络模式挖掘算法具有重要的理论意义和应用价值。本文以实际的生物网络和社会网络作为研究对象,研究复杂网络的模式挖掘算法,包括静态复杂网络的模体发现和模块识别算法,动态复杂网络的动态模式挖掘和动态模块分析算法。当然,这些算法也可以应用于其他领域的复杂网络分析中。具体而言,本文开展了以下研究工作并做出了相应的贡献。1.针对复杂网络本身存在的不确定性和噪声,本文提出了基于聚类分析的概率网络模体发现算法。首先采用ESU(子图枚举)来挖掘复杂网络中的非树形且出现概率小的子图,然后采用规范化标记方法计算子图之间的同构关系,以确定每个子图的出现频率;最后通过聚类分析,将相似的子图聚为一类,得到概率网络模体。通过给参数设置不同的值,可以得到一个规模对应一个或多个概率网络模体,或者确切网络模体。在大肠杆菌和酵母菌的基因调控网络和蛋白质相互作用网络上的实验结果表明,该方法可以有效地发现现已确定的网络模体,而且能够发现潜在的网络模体。2.针对复杂网络规模大,且结构复杂,模块规模分布复杂,本文研究了基于网络对称性和谱聚类的模块结构识别算法。首先对复杂网络进行基于网络对称性的压缩,定义压缩网络上节点的关系,然后用谱聚类进行网络划分。相似图对谱聚类的结果有重要的影响,还分析了基于邻接矩阵、公共邻居和相似性传递三种相似图的定义。在蛋白质相互作用网络上进行功能模块识别,基于网络对称性压缩的谱聚类得到了较好的结果,但并不比基于三种相似图的谱聚类有明显的优势,但其可以处理更大规模的数据。与蛋白质相互作用网络分解的经典方法进行了比较,谱聚类方法取得了可比的结果。3.为了刻画动态网络的演化规律,并预测其未来行为,定义了周期动态模式和阶段动态模式,提出了基于概要图和序列分析的动态模式挖掘算法。首先定义周期动态模式为动态网络中的有规律且周期性的子结构,而阶段动态模式为存在于复杂网络整个演化过程或某阶段的子结构。将动态网络图序列用一个概要图表示,图的边上用0/1序列表示。将对图序列的分析转换为在概要图和序列上的分析,从而得到动态模式。针对网络数据的噪声性质,扩展了动态模式的定义,允许其存在一定的误差。在足球队联赛、Enron公司的E-mail收发和DBLP科学家合作网络数据上进行研究,得到了有趣的周期模式和阶段模式。4.在动态复杂网络分析中,模块结构仍然是重要的内容,基于进化聚类研究了动态模块分析方法。提出了一个通用的动态模块结构分析框架。该框架涉及到模块识别、两个模块之间的变化量计算、模块结构调整和模块演化分析等计算问题。给出了每一个相关计算问题的求解方法,但也可以用其他的方法来进行。在果蝇生命周期基因调控网络上进行分析,得到了较好的结果。