基于关系数据库与NoSQL相结合的微博数据存储研究

被引量 : 0次 | 上传用户:jslj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个数据大爆炸的时代,电子商务、社交网站、音频视频网站等每天都会产生TB级的数据量。如今,微博也毫无悬念的跻身其中,面临着海量数据存储问题。国内许多的诸如新浪微博、腾讯微博等网站,因为最初使用关系数据库存储数据,导致他们如今面临着两大难题。一是无法通过简单地新增存储设备来实现扩展,海量数据存储困难;二是当用户访问量过大时,即使1%的缓存访问不命中所造成的数据库查询仍然效率低下,甚至无法支撑。而国外如Facebook、Twitter等网站,其采用非关系型数据库(No SQL)进行数据存储,在处理海量数据方面,可以通过新增存储设备、提高数据存取效率等方式应对,但No SQL在面对那些要求高安全性、强事务性的业务时就显得很乏力。因此,如何解决微博海量数据存储、提高访问效率,还能适应部分业务的强事务性要求,就成为一个重要的研究方向。然而国内外学者在这方面的研究工作一直都进展缓慢,虽有一定成果,但大都停留在概念或模型地提出而全无具体策略,无法投入实际应用。针对上述情况,本文以微博自身业务为基础,充分利用关系数据库与No SQL各自的优势,创造性地提出微博数据分库存储,即用户相关信息使用关系数据库(My SQL)存储,微博相关信息使用No SQL(Cassandra)存储;与此同时,设计了关系数据库与No SQL相结合的数据存储架构,并在其服务层实现了详细的存储策略和访问策略。最后通过在微博数据集上进行的大量实验,验证了本文架构及策略的可行性,并进行了性能比较。本文所提出的架构及策略的主要贡献如下:①在解决微博海量数据存储问题的同时保证了高安全性和强事务性(部分业务)。用No SQL存储海量的微博数据,而要求高安全性与强事务性的用户信息则使用关系数据库存储。②实现了高负载情况下用户请求的高效率访问。当本文架构投入运行一定时间后,绝大部分的数据库查询都将访问Cassandra数据库,在高负载情况下,Cassandra并行计算的能力更强,因此,相对于My SQL具有更高的查询效率。③通过大量实验以及结果分析,详细地讲述整个架构和策略,为同样面临海量数据存储的其他领域提供参考的解决方案。
其他文献
本文从企业家人力资本产权界定、企业家能力、企业家努力水平的激励动力等维度来展开分析,找出国有企业低绩效原因在于企业家人力资本产权的“残缺”。并结合时代特征与中国的
为了提高电子密码锁的安全性、降低功耗和成本,采用单片机AT89S51与低功耗CMOS型E2PROM AT24C02作为主控器件与数据存储器单元,结合外围的键盘输入、显示、报警、开锁、串行
卧底侦查是侦破有组织犯罪、团伙犯罪的有效手段。随着中国诉讼观念的更新和诉讼模式的转变,卧底侦查所衍生的法律问题越发凸显。作为侦查谋略",卧底"在侦查中应用广泛,但学
在今年的世界移动通信大会(MWC2018)上,5G当仁不让地成为一大技术主角。华为、中兴、爱立信、高通、英特尔等科技巨头们纷纷打出"Leading 5G、Perfect 5G、Boost 4G to 5G"的
<正>财政职业道德建设是财政文化建设的重要内容,加强财政文化建设又是实践“三个代表”重要思想,同时也是发展先进文化的重要方面和具体要求。因此,对财政来说,明确职业道德
固定资产是高校有形财产的重要组成部分,是高校获得持续发展的物质基础。随着我国改革开放的推进以及市场经济的发展,我国高校规模不断扩大,固定资产的来源也由过去的国家行政拨
本文展示了肇庆鼎湖区砚洲岛的发展情况。伴随珠江三角洲城市化进程中肇庆的发展,肇庆新区投入建设,当中涵盖了珠江最大的岛屿—砚洲岛。目前,该岛是一个由丰富而复杂生态系
本文通过对哈尔滨房地产市场价格影响因素进行分析,查阅哈尔滨市统计年鉴获取2003~2012年影响房地产市场价格的相关数据,利用spss软件,对影响房地产市场价格的因素进行回归分
营业税改增值税可以从制度上解决货物与劳务税制不统一和营业税重复征收的问题,使税收更加科学合理,降低企业税负,促进整个经济的公平与效率。目前营业税改增值税在我国开始
雾霾的形成,主要是城市静风、大气逆温层以及大气中细颗粒物污染的综合效应。控制和预防雾霾,应该加强机动车的监控、鼓励清洁能源汽车的研发、生产和销售。大力发展城市公共