社交网络存储系统中数据划分与复制技术的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:intaaag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,在线社交网络日趋流行,吸引了成千上万用户的亲睐。海量用户的加入,促使社交网络爆炸性增长,产生海量的数据,对后端支撑系统的可扩展性提出了极高的要求。面对这一挑战,如何管理用户数据已经成为亟需解决的难题。而社交网络中用户数据自身的复杂性,又加大了数据划分与复制的难度。我们在分析了社交网络中的真实数据集之后,发现:用户在社交网络中的大部分的交互活动,是与他们小部分的好友完成的;用户的好友数目越多,用户数据被访问的概率也越大。受上述的观察结果启发,我们先构建了一个动态带权社交关系图:在这个图中,我们区分用户与不同好友之间的交互活动的重要程度。然后我们设计了一个名为WEPAR的动态划分与复制算法,这个算法中我们综合考虑了社交网络中的读操作、写操作以及副本拷贝代价。基于真实数据集的深刻并全面的实验结果表明与现有方法相比,我们的方法能够切实的降低存储代价,在维持读操作的响应时间的同时,能够改善写操作的响应时间。同时我们的方案具备优良的稳定性和可扩展性。我们的主要贡献包括如下方面:我们引入了动态带权社交关系图的概念,来区分社交网络中用户与不同好友之间的交互活动的重要程度。在这个图中,所有的点、边以及边的权重都是随时间动态变化的。我们提出了名叫WEPAR的在线划分并复制社交网络中用户数据的算法,并且据我们所知,这是在社交网络中首个同时考虑读操作,写操作以及副本代价的算法。所有的观察结果与实验结果都是基于真实的在线社交网络数据集:新浪微博、人人网和Facebook而得出的。其中新浪微博与人人网是中国最受欢迎的两大在线社交网络。本文中提出的解决方案具有现实指导意义,能够为支撑社交网络的系统设计提供帮助与指导。
其他文献
近几年来,Internet处于不断的发展和变化中。从Internet上承载的应用看,有三个明显的趋势:一是业务流量的规模不断增大;二是VOIP、网络视频服务等多媒体应用不断增多;三是电
随着我国铁路信息化建设的快速发展,铁路运输中产生的信息数据的规模迅速膨胀,且数据类型纷繁复杂,对铁路运输管理技术人员提出了全新的挑战。然而,目前铁路运输信息系统却只
  本文结合石化安装工程,研究了研究如何应用数据仓库和数据挖掘新技术建立商业智能系统问题。文章阐述了商业智能的概念和数据仓库的基本原理;研究了数据仓库的数学模型及其
图像配准是图像处理领域的一个基本问题,它在计算机视觉、模式识别和图像重建等诸多领域有着广泛的应用。近年来,随着图像配准在多媒体数据库管理、行人检测、搜索引擎等应用领
本文详细分析了印刷企业ERP系统及其物料和生产计划管理子系统的特点.通过对其物料和生产计划管理应用实践的研究,提出了网状BOM的构造方法,提出了库存控制的一种综合管理方
随着全球老年化问题的日益严重,阿兹海默症(Alzheimer’s Disease,简称AD)患者的增多成为了一个严重的社会问题。核磁共振成像是研究和诊断阿兹海默症的主要方法之一,随着近年来
近年来,机器人足球比赛已成为多智能体系统和分布式人工智能研究的热点问题。实物机器人足球比赛系统价格比较昂贵、开发周期长、且有使用寿命的限制,由此导致,机器人足球策
WLAN,即无线局域网,是将计算机网络用无线设备加以实现,并保证其相互通信的一门技术。它是于1990 年之后出现的,并以方便、经济、简单实用为特点,使之迅速的发展起来。然而,
本文对计算机辅助几何设计(CAGD)领域中的三类曲线:有理Bézier曲线,NURBS曲线以及C曲线的造型问题做了进一步的研究,给出了构造与给定多边形相切的各类曲线的算法,并用程序
电信计费系统是电信产品生产中的关键环节。建设、使用和维护好计费系统是电信运营商最重要的任务之一,同时也是计费软件开发商持续发展的关键任务之一。本文介绍了一个运营系