论文部分内容阅读
社交流数据指记录了社交实体状态及实体间关系动态变化的数据流。它可以用来表示大量应用中的实体状态变化,如社交媒体数据中用户发布和转发信息的动态、利技文献间的引用、分布式系统中各节点间数据的传输等。社交流数据与传统的网络和流数据不同,它既是一系列是实体状态数据流,又是动态变化的网络数据,它是图数据和流数据的结合。正是由于社交流数据存在图和流数据的复合特点,因此,社交流数据存在巨大的商业和研究价值,有效的数据管理和挖掘是学术界和工业界共同关注的焦点。目前,多种技术可以用来管理或者处理社交流数据,如何针对应用选取合适的数据生成器是评测基准需要解决的问题。然而,出于对隐私、数据量庞大不易转移等问题的考虑,评测基准通常无法提供真实数据评测系统。因此,一个能够灵活地、高效地产生大规模“真实的”人工数据的生成器具有重要意义。本文面向评测基准的需求研究产生社交流数据的方法。提出的产生社交流数据的方法能针对不同类型社交流数据产生与“真实的”社交流数据特征相一致的数据。为了实现高吞吐量的产生大规模数据的目的,本文设计并实现了一个分布式生成生成社交流数据的系统。此外,本文以社交流数据生成器为基础,设计了一个基于社交媒体分析查询的评测基准。总之,全文围绕着社交流生成这一问题而展开,主要贡献具体包括以下四个方面1.提出了一种基于人类动力学模型和时序生长网络模型产生单链接社交流数据的方法单链接社交流中的社交项目最多可连接一个历史项目。该方法利用两个缓冲区的迭代更新而顺序地产生单链接社交流数据。其中一个缓冲区是未来项目缓冲区:它存储生产者未来将来发布的社交项目。另一是近期项目缓冲池,其中保存了指定窗口大小的近期历史项目。在两个缓冲区迭代更新的过程中,该方法使用人类动力学模型为每个生产者产生不带链接信息的社交项目,利用时序生长网络模型确定社交项目的项目链接信息。用户可以通过配置参数产生指定规模、数据分布和类型的数据集。通过实验表明,提出的方法能够以稳定的吞吐量和内存占用持续地产生“真实的”单链接社交流数据。2.提出了一种基于人类动力学模型和网络生成模型产生多链接社交流数据的方法多链接社交流内的社交项目可以连接多个历史项目,因此,在产生多链接社交流数据的过程中对社交项目的链接生成部分有新的要求。该方法在产生单链接社交流数据方法的基础上,同样使用两个缓冲池迭代更新的方法顺序地产生多链接社交流数据。在生产社交项目的链接信息时,扩展的时序生长模型和边复制模型都可以用来产生链接信息。经实验验证分析,利用扩展的时序生长模型产生的社交流数据能更好地匹配真实的数据分布。基于扩展的时序生长模型产生多链接社交流的方法能够以稳定的吞吐量和内存占用持续地产生“真实的”多链接社交流数据。3.采用主从架构,实现了一个分布式生成社交流数据的系统为了实现高吞吐量的产生大规模社交流数据的目的,该系统可分布式地产生单链接和多链接社交流数据。该系统采用单个主机和多个工作节点的架构产生数据。工作节点利用产生单链接和多链接社交流数据的方法,在使用时序生长模型产生链接信息的基础上,产生指定生产者分区内的社交流数据。主机则合并来自各个节点的部分社交流以产生最终的全局社交流数据。该系统利用分布式链接生成方法、异步模型和延迟更新策略具体实现分布式生产数据的细节。通过实验表明,分布式数据生成系统在产生不失真数据的前提下,可以通过增加节点的方式实现生产数据吞吐量的线性增长。4.以社交流数据生成器为基础,设计了一个基于社交媒体分析查询的基准测试社交媒体服务已经成为互联网上最流行的服务之一,社交媒体数据是—类典型的社交流数据。本文设计了一种基于社交媒体数据分析的评测基准BSMA,它包含了数据支持、负载生成器和一个性能测试工具。负载生成器部分定义了社交媒体的数据模型,并在此基础上定义了4类24个查询模版,并提供一个可以根据需求产生不同参数值给查询任务的参数生成器。数据支持部分不仅提供提供真实的新浪微博数据集,还提供能够产生社交流数据的生成器BSMA-Gen。BSMA-Gen使用本文提供的生成社交流数据的方法产生数据。24个查询模版中包含多个基于社交流数据中的时序和链接关系网络的查询,BSMA-Gen可作为该类查询的数据支持。用户可以使用测试工具连接待测系统、配置并执行测试任务,最终根据定义的三个评测指标输出评测结果。综上所述,本文形式化定义了社交流模型以及相关特征。提出产生单链接和多链接社交流数据的架构、模型和生成算法。用户可以根据需求来配置社交流数据生成器,使其产生指定数据分布、指定类型的数据。为了能够高吞吐量产生大规模社交流数据,本文设计并实现了一个分布式生成系统。本文以社交流数据生成器为基础,设计了一个基于社交媒体查询的评测基准。