论文部分内容阅读
社交网络的服务模式不断创新、应用功能日益丰富,正逐渐渗透到即时通信、新闻推送、支付交易、游戏娱乐等社会生活的各个方面。对社交网络中社区检测的研究成果已被广泛应用到市场精准营销、搜索引擎开发、网络舆情分析等众多领域。然而由于在线社交网站的用户数量急剧上升,网络规模快速增长,产生了样本数量巨大、关系复杂、超高维度的社交网络大数据,使得社交网络大数据分析的性能成为社区检测结果是否具有高价值的关键因素。因此,对大规模社交网络进行社区检测面临如下挑战:社交网络中的多样化数据类型使得根据异构数据源进行社区检测变得更加困难;对基于云计算的大规模社区检测的性能需求愈发迫切;巨大的用户数量使分布式社区检测中的统计推理成为性能瓶颈;高维数据导致的频繁构造列联表严重影响了分布式社区检测的效率。
针对社交网络大数据分析中多样化、高速度、大容量和高维度四个方面的问题,论文研究工作分别对如何使用多元化社交网络数据提高社区检测的准确性、如何使用云计算资源以较高的并行度进行社区检测,以及如何提升大数据量和高维数据下的分布式社区检测的性能进行了深入的研究。研究工作的主要创新性成果如下:
(1)提出了一种基于概率图的社交网络社区检测方法。建立了基于概率图的社区检测模型,根据用户特征相似度概率图对用户特征相似性之间的潜在关联进行建模;采用社交圈集合以同时描述与社交圈相关联的用户和特征;给出了关系概率集合的计算方法,可描述在给定一组用户和社交圈时自我网络形成的概率;提出了特征相似度概率图学习算法,并给出了基于概率图的社区检测模型的评分函数。使用Facebook、Twitter和Google+等真实数据集进行了实验,验证了由本文提出的FSPG学习算法训练得到的PGCD模型可以高效、准确地预测社交圈。
(2)提出了一种基于StormTopology的分布式社区检测方法。通过将一个有向无环图的评分和扩展操作作为基本计算单元,使得集中式社区检测的过程可被划分到最细的粒度,提高了FSPG学习算法的并行度;设计了一种标识符自动生成机制,以保证每个概率图模型只对应于集群中的一个计算节点,从而能够自动检测并处理搜索空间中的环路;通过使用每个概率图模型的哈希值作为状态元组的键值,实现了更高效地向计算节点分配计算任务。分析了算法的并行度,并搭建了Storm云计算平台,在分布式环境下进行了综合的性能测试实验,验证了算法可以达到很高的并行度,并且在数据量较大时性能有显著提升。
(3)提出了一种基于稀疏ADtree的分布式社区检测性能优化方法。提出基于稀疏ADtree的充分统计量提取算法,通过使用稀疏ADtree存储充分统计量并分发给各个搜索和评分节点,可避免各搜索和评分节点对分布式文件系统的频繁访问;提出基于稀疏ADtree的概率图快速评分算法,在评分节点中使用稀疏ADtree恢复出列联表以计算概率图的评分值,并通过建立本地列联表集合以减少列联表的重复计算。使用真实数据集在分布式环境下进行了性能测试实验,实验结果表明社区检测的搜索和评分时间大幅缩短,模型参数的分布式学习过程得到了明显加速。
(4)提出了一种高维数据下分布式社区检测性能的优化方法。设计了两个高效的列联表数据结构,即链式列联表和哈希列联表,通过分别使用一维数组和哈希表以记录条件概率,简化了列联表的结构,从而减少了从高维数据创建和索引列联表的时间;提出了列联表快速构造算法,可避免列联表构造过程中的递归调用,为解决使用非递归方式从稀疏ADtree中恢复MCV节点的问题提供了一种有效的方法,从而可大幅缩短列联表的构造时间。使用大量的随机数据集和真实数据集进行了综合的性能对比实验,实验结果表明,从高维数据构造链式列联表和哈希列联表的时间均比现有方法更短,并且FCTC算法可使概率图评分函数的计算过程进一步加速。
针对社交网络大数据分析中多样化、高速度、大容量和高维度四个方面的问题,论文研究工作分别对如何使用多元化社交网络数据提高社区检测的准确性、如何使用云计算资源以较高的并行度进行社区检测,以及如何提升大数据量和高维数据下的分布式社区检测的性能进行了深入的研究。研究工作的主要创新性成果如下:
(1)提出了一种基于概率图的社交网络社区检测方法。建立了基于概率图的社区检测模型,根据用户特征相似度概率图对用户特征相似性之间的潜在关联进行建模;采用社交圈集合以同时描述与社交圈相关联的用户和特征;给出了关系概率集合的计算方法,可描述在给定一组用户和社交圈时自我网络形成的概率;提出了特征相似度概率图学习算法,并给出了基于概率图的社区检测模型的评分函数。使用Facebook、Twitter和Google+等真实数据集进行了实验,验证了由本文提出的FSPG学习算法训练得到的PGCD模型可以高效、准确地预测社交圈。
(2)提出了一种基于StormTopology的分布式社区检测方法。通过将一个有向无环图的评分和扩展操作作为基本计算单元,使得集中式社区检测的过程可被划分到最细的粒度,提高了FSPG学习算法的并行度;设计了一种标识符自动生成机制,以保证每个概率图模型只对应于集群中的一个计算节点,从而能够自动检测并处理搜索空间中的环路;通过使用每个概率图模型的哈希值作为状态元组的键值,实现了更高效地向计算节点分配计算任务。分析了算法的并行度,并搭建了Storm云计算平台,在分布式环境下进行了综合的性能测试实验,验证了算法可以达到很高的并行度,并且在数据量较大时性能有显著提升。
(3)提出了一种基于稀疏ADtree的分布式社区检测性能优化方法。提出基于稀疏ADtree的充分统计量提取算法,通过使用稀疏ADtree存储充分统计量并分发给各个搜索和评分节点,可避免各搜索和评分节点对分布式文件系统的频繁访问;提出基于稀疏ADtree的概率图快速评分算法,在评分节点中使用稀疏ADtree恢复出列联表以计算概率图的评分值,并通过建立本地列联表集合以减少列联表的重复计算。使用真实数据集在分布式环境下进行了性能测试实验,实验结果表明社区检测的搜索和评分时间大幅缩短,模型参数的分布式学习过程得到了明显加速。
(4)提出了一种高维数据下分布式社区检测性能的优化方法。设计了两个高效的列联表数据结构,即链式列联表和哈希列联表,通过分别使用一维数组和哈希表以记录条件概率,简化了列联表的结构,从而减少了从高维数据创建和索引列联表的时间;提出了列联表快速构造算法,可避免列联表构造过程中的递归调用,为解决使用非递归方式从稀疏ADtree中恢复MCV节点的问题提供了一种有效的方法,从而可大幅缩短列联表的构造时间。使用大量的随机数据集和真实数据集进行了综合的性能对比实验,实验结果表明,从高维数据构造链式列联表和哈希列联表的时间均比现有方法更短,并且FCTC算法可使概率图评分函数的计算过程进一步加速。