论文部分内容阅读
复杂社交系统,如微信、微博、脸书,推特,抖音等,接受用户的输入信号,产生输出信号,满足用户在系统中的各种信息需求,随时间不断演化,并产生社交大数据。解释复杂社交系统演化机制是本文的核心课题,其对理解自然界中复杂系统如何运行等科学问题,和在社交系统中如何提供可解释的推荐、广告投放等计算服务都具有重要意义。然而,研究复杂社交系统的演化机制极具挑战,其体现在:一,复杂社交系统由亿万链接的个体组成,其输出数据也多呈现链接的网络结构,呈现结构复杂性;二,复杂社交系统中微观个体动态地相互影响,导致其宏观整体输出与微观个体输入之和差别极大,即非线性;或在短时间尺度大规模涌现,即爆发性;两者合称为动态复杂性;三,复杂社交系统在微观呈现随机无序状态,但在宏观呈现确定有序状态,其演化呈现多尺度复杂性。传统分析方法基于物理动力学模型,试图刻画复杂社交系统动态变化的现象,并揭示其变化的动力学机制。然而,真实复杂社交系统如微信、微博等有着数十亿节点和数百亿条边,其动态变化现象体现在宏观网络演化,微观个体社交行为,及信息在网络上的动态传播等不同尺度及不同场景。通过数据驱动的方式,我们发现了上述复杂社交系统在不同尺度不同场景的很多全新的复杂现象,而传统动力学模型不能刻画。本文创新地将计算机科学和物理学理论融合,通过数据驱动的方式,对复杂社交系统演化机制进行了动力学建模。具体而言,本文研究了复杂社交系统演化的三个核心子课题,包括:一,社交网络多尺度演化规律发现和建模,其旨在回答复杂社交系统在不同尺度如何增长的问题;二,信息流在网络中传播的复杂模式生成,其旨在回答信息流在复杂网络上如何传播的问题;三,宏观分布函数的微观动力学起源定理,其旨在回答如何连接微观行为和宏观现象的问题。我们所提出的研究方法在微信(首次)和腾讯微博等大规模社交数据上进行了实验验证。对于社交网络多尺度演化规律发现和建模子课题,我们发现宏观网络节点和边随时间的幂律增长,提出网潮模型,准确刻画了网络演化规律,提升了对网络演化长期预测的性能;并进一步发现了微观网络演化和个体社交行为的长期非线性和短期爆发性增长,提出长短记忆随机过程,准确刻画了个体动态随机行为,提升了微观行为的预测性能和可解释性。对于信息流在网络中传播的复杂模式生成子课题,我们发现了真实社交系统中信息流的复杂结构,通过量化信息流结构发现其复杂几何模式,并提出数据驱动的异构分支随机过程,解释了真实社交系统中信息流复杂模式生成的机制,极大提升了拟合信息流复杂几何结构的准确性。对于分布函数的动力学起源子课题,我们提出了一种构造化的解释,认为宏观确定分布函数由随机到达的微观个体通过确定的动力学过程得到,给出了连接微观随机性和宏观确定性的定理,并极大提升了宏观分布拟合准确率和可解释性。我们通过数据驱动的动力学建模,很好地刻画了观测到的全新复杂现象,并进一步从复杂系统的角度解释其动力学演化机制,有效地结合了数据科学的可计算性和统计物理的可解释性。我们提出的数据驱动的动力学建模研究方法,试图为建模,理解,预测真实世界中的大规模复杂社交系统奠定一定的理论基础。