论文部分内容阅读
随着互联网技术的快速发展,在线社交网络正日益盛行,特别是以微博为代表的在线社交网络服务平台拥有庞大的用户群体,形成了巨大无比的信息传播网络.研究在线社交网络中信息的传播规律、分析网络中信息情感极性,可以有效地监控舆情并及时阻断不良言论在社交网络中扩散.研究在线社交网络中的信息传播机理一般是先构建合理的传播模型.将在线社交网络拓扑特性嵌入复杂网络,结合传播动力学理论建立信息传播模型,为分析在线社交网络信息宏观传播规律打下基础.同时,利用机器学习等理论方法对用户微观行为进行分析能够进一步揭示信息传播规律.当前的大多数信息传播研究没有充分考虑在线社交网络的拓扑结构特征,论文以挖掘网络拓扑对信息传播的影响为切入点,主要研究内容如下:(1)挖掘在线社交网络拓扑结构及其与信息传播的关系.利用复杂网络的分析方法,分析在线社交网络结构等基本特征,并指出网络拓扑结构在当前在线社交网络信息传播研究中的应用.(2)提出基于PageRank的在线社交网络信息传播模型P-SIR(Susceptible Infected Removed Based on PageRank).该模型以网络中节点的PageRank作为节点的权威度,结合传染病模型,充分考虑在线社交网络的拓扑结构特性.通过六组不同的网络模拟信息的传播情况,仿真实验验证了该模型的有效性,模拟信息传播更符合真实情况,较传统的病毒传染模型更具可扩展性.(3)基于网络拓扑结构的微博信息情感分类研究.通过网络爬虫技术爬取了新浪微博数据,构建用于分析的微博网络,通过提出的P-SIR模型验证了网络的有效性.结合图论知识把用户关系和用户行为进行抽象表示,并简化为关系-行为网络拓扑,提取微博信息文本类特征和网络拓扑结构类特征,利用word2vec表示文本词向量.采用四种机器学习方法在三种特征集上训练不同模型,对微博信息情感极性分类.实验结果表明,Random Forest算法分类效果最好,加入网络拓扑结构类特征后提高了模型分类准确率,且特征重要性更高.