论文部分内容阅读
近年来,以微博为代表的在线社交网络得到迅速普及和发展,参与人数越来越多,已成为广大民众获取信息和发表观点的重要平台。计算机、物理、数学、生物等领域的许多学者都致力于社交网络的相关研究工作。由于在线社交网络具有用户规模庞大、话题更新频繁、信息传播迅速和影响范围广泛等特点,使其研究工作具有很大的挑战性。本文主要以新浪微博为研究对象,对微博网络的结构特征分析,信息传播过程建模分析,关键人挖掘和微博情绪判别及演化过程建模分析等问题进行深入探讨,重点分析了微博网络结构特征对网络传播动力学行为的影响规律,并据此研究了信息传播控制等若干动力学过程的主动导向策略。本文研究成果可为微博网络中的舆情感知、跟踪、预警和干预提供借鉴和参考。具体来讲,本文工作主要有以下四点:(1)提出了一种微博网络社团发现方法MixCDer。该方法将微博用户关系网络加权重构为无向加权网络,其权值由用户间的关系强度确定,取决于网络社交结构和用户内容属性。其计算过程一方面采用用户间有向边出现的概率来刻画其社交结构的紧密程度;另一方面定义了微博用户内容属性相似度,实现了一种基于LDA话题模型和Jaccard系数的用户内容属性相似度计算方法。在重构后的微博用户关系网络上,采用支持无向加权网络的社团发现算法可以得到更为准确的社团划分结果。实验表明,相比于对未重构网络的社团划分结果,CNM、OLSOM和Infomap算法对重构后网络社团划分结果的准确率均有提高,平均提高率为39%。(2)建立了一种微博网络信息传播模型MBSIT,提出了基于传播渠道控制的微博信息传播控制策略。MBSIT模型针对微博信息传播中典型的推送和转发机制,以及用户对信息的多次传播现象,将网络用户分成信息传播者(Spreader)、信息未知者(Igorant)和信息终结者(Terminator)三类,定量分析了信息推送、转发和多次传播对三类用户之间相互转化过程和信息传播概率的影响。模型有效解决了SIS、SIR等传播模型难以刻画微博信息推送和转发机制,以及信息多次传播现象的问题。以MBSIT模型为基础,分析了网络互惠性和社团性对信息传播速度和范围的影响。仿真结果表明,相对于互惠性而言,反映网络社团性的模块度对信息传播过程的影响更为明显,在具有中等模块度的网络中,信息传播规模最为突出,覆盖率达85%。基于MBSIT模型,提出了一种基于传播渠道控制的信息传播控制策略,实验表明,相比于随机边和介数值大的边,通过删除(添加)社团之间的连接边,能更加有效的抑制(促进)信息的扩散过程。(3)设计并实现了一种话题相关的关键人挖掘算法WTSIRank。该算法首先提出采用节点带权图来描述用户社交关系网络,节点权值取决于用户微博内容和数量,反映其对话题的参与程度,设计并实现了一种基于微博与关注话题相关性度量和原创性判别的节点权值计算方法。综合考虑用户间发布微博的内容相关性和相关微博的数量等因素,计算节点间的转移概率,进而得出节点影响力得分值,并利用节点初始权值对其进行修正,经过多次迭代,得到节点最终影响力。实验表明,在特定话题相关的关键人挖掘方面,WTSIRank算法与DegreeRank、PageRank、LeaderRank和TwitterRank算法相比,关键人挖掘结果具有较为明显的相关性,相关系数最大为0.71,但WTSIRank算法的挖掘结果更为合理。(4)设计并实现了一种基于朴素贝叶斯理论的微博用户情绪自动判别器MBECer,建立了微博情绪动态演化模型EDEM,提出了一种微博用户情绪引导策略。MBECer判别器通过构建微博文本语料库,计算各词组在不同情绪中出现的概率来实现情绪判别,并针对汉语特点,提出并实现了基于Entropy和Salience值过滤的情绪判别优化策略。实验结果表明,优化前,MBECer对微博情绪判别的准确率为59%;优化后,其准确率达到83%,略高于Twitter上的情绪判别准确率(81%)。通过对微博情绪数据的统计分析,发现了用户情绪普遍存在相互感染现象,并研究了用户性别、朋友数和微博数等属性与其情绪分布及波动规律之间的相关性。在此基础上,建立能够同时描述用户间情绪感染过程,以及用户情绪自变化过程的EDEM模型。基于EDEM模型,提出了一种基于种子节点选择的微博用户情绪引导策略。实验表明,选择核数较大的节点比选择度大的节点作为引导种子,能进行更有效的情绪引导,引导效果平均提高了10%。