论文部分内容阅读
物以类聚,人以群分,社团和分类的概念与人们的生活息息相关。这种情况在信息技术高速发展的今天也不例外:商品种类的琳琅满目,新锐思想的百家齐放都促使着不同社团产生。社团中的个体之间有着很强的关联性和相似性。结合节点特征,对网络的社团进行准确的划分,可以得到兴趣爱好等特征标签相近的节点的集合,对商品分类和推荐等商业决策具有重要意义。同时,社团结构还可以帮助我们预测网络中的未知信息,这对量化金融网络潜在风险及预测网络演化也具有一定的帮助。社交媒体的发展产生了大量带有积极与消极态度的情感互动信息(如评价、关注、点赞、拉黑等),这些信息对全面深入挖掘个体之间的联系提供了帮助。符号网络就是表征这类信息的有力工具。在真实的符号网络中,群体的产生不仅受到个体之间联系亲疏的影响,还受到个体之间的态度、网络演化程度等多方面因素的共同影响。在社团划分工作中,我们探究了网络平衡模体的构成机制,并基于符号网络的结构平衡理论,将网络当中节点对局部结构平衡性的贡献进行量化。本文认为一群节点构成的边对平衡结构形成的积极影响越大,它们所组成的群体内部会越稳定,这些节点之间更加倾向于形成相互支持的关系,彼此之间的消息传播和意见传输意向更强。在此基础之上,我们把平衡性贡献值与社团划分相结合,将经典的模块度算法拓展到符号网络中,来挖掘符号网络中稳定社团结构。接下来,我们基于上述符号网络稳定社团划分算法,通过数值仿真,在人工网络上验证了算法的有效性。在真实的情感互动信息网络中,消极信息(如排斥、敌对、怀疑等)对集体的形成有着负面影响,集体会随着消极信息的变多逐步失去团结,分崩瓦解,反之,积极信息在这方面有着正面作用。因此我们通过改变网络正负边的数量和社团内部节点连边的稠密度,来对算法效果进行探讨。并引入稳定性评价指标(Bs)与相似度指标(S)来量化网络的稳定程度和划分出社团与原始社团的相似度。在与经典的DM(Doreian和Mrvar所提出)划分算法比较的结果中,算法在结构集团化清晰时有着更准确的划分效果,究其原因如下:网络中个体之间的交互信息越多,它们之间的关系越亲密,更容易被分到同一个社团。此外符号信息较为混乱时,算法的划分效果也比DM算法更好,这是因为算法将符号信息与结构信息融合,把网络局部信息抽象成对小型稳定模体的贡献。这使得算法对符号信息变化不敏感,具有更好的鲁棒性。最后,算法还应用于两个真实存在社团结构的符号网络中,结果表明算法划分出的社团能完全与实际社团匹配。综上所述,我们的划分算法对挖掘符号网络社团提供了行之有效的解决办法。符号网络中边上未知及缺失符号的预测问题也是我们关注的重点。无论是社交网络中的潜在朋友挖掘,还是商品售卖网络中的喜好推荐,都需要对符号信息进行预测。补全正负边信息的网络,对舆论正向传播等动力学过程也具有重要意义。因此本文提出了一种符号预测算法,针对存在社团结构的符号网络人工仿真模型,讨论了不同结构参数的网络中,基于稳定社团划分结果预测出所得准确度(accuracy)的变化情况。此外还讨论了社团稠密度和网络正负信息的数量变化对预测效果的影响,以及不同规模训练集下算法的预测变化情况。结果表明,该算法在正边信息较多且集团化程度较强时有着最优表现,此时网络稳定性较高。在此情况下算法不会因为训练集规模的变小而明显变差,具有较好的鲁棒性,这些结论都可以为商品推荐、好友关联等工作提供一些思路。