【摘 要】
:
信息的表示和查找是大多数计算机应用程序的核心。近年来,随着信息技术的发展,计算机网络已经成为人类社会重要的信息基础设施,并强力渗透到各个领域。资源的交互共享促进了
论文部分内容阅读
信息的表示和查找是大多数计算机应用程序的核心。近年来,随着信息技术的发展,计算机网络已经成为人类社会重要的信息基础设施,并强力渗透到各个领域。资源的交互共享促进了更多数据和信息的产生,随着计算机的飞速发展,数据库、网络和其他应用中的数据集合规模呈几何增长。在信息集合变得越来越大,访问和表示越来越困难的情况下,如何表示大数据集合,完成大数据集合下的查询成为国内外学术界的挑战性课题。布鲁姆过滤器(Bloom Filter,BF)是一种能够简洁表示静态集合并支持集合成员从属查询的数据结构。它采用一个位串表示数据集,以可接受的误判率为代价支持元素的哈希查找。在数据库、网络和分布式系统中,布鲁姆过滤器已经得到广泛应用。然而,受限于布鲁姆过滤器的基本属性,实际应用中必须事先根据存储元素的数量和给定的误判率来估计所需过滤器的大小,如果达到过滤器最大容量后仍需额外存储元素,那么误判率就会增长,并且标准布鲁姆过滤器只支持静态集合的表示,并不支持元素的删除。因此,随着数据集的动态增长,并伴随元素的删除,传统布鲁姆过滤器将会遭遇到难以克服的困难。为此,本文设计了一种新型的可扩展的计数布鲁姆过滤器(Scalable Counting Bloom Filter,SCBF),通过添加额外的元数据来标识集合中的元素,增强元素和布鲁姆过滤器之间的关系,准确判断元素究竟属于哪一个布鲁姆过滤器,不仅支持新元素的插入,还支持已有元素的可靠删除。主要工作如下:1)实现动态扩展。在计数布鲁姆过滤器的基础上提出一种动态扩展方案,通过创建一个布鲁姆过滤器的列表,作为一个大的布鲁姆过滤器,每当过滤器满载后要更大的容量时,新建一个新的过滤器添加到列表中。同时,使用一个缩紧率r控制每个新添加过滤器的误判率,确保总体误判率可控。2)实现精确删除。整合布鲁姆过滤器的删除功能和可扩展性。在元素的插入和删除过程中,以单调递增的序列作为额外添加的标识,将元素归类。那么就可以通过元素的标识确定元素的归属,从而确保元素可以从正确的过滤器删除。3)系统优化。对SCBF的扩展规模进行了优化,并且通过引入内存序列和磁盘序列跟踪系统的操作,提供数据一致性保护。理论和实验表明,SCBF可以很好地实现动态扩展和动态删除,在功能的实现上明显优于其他布鲁姆过滤器。而且,经过大量的测试,本文找到了相关参数的最佳取值,确保系统的误判率始终收敛在可控范围,并且满载状态下空间开销仅比理想条件下的计数布鲁姆过滤器稍大。
其他文献
近些年,人们对多主元高熵合金的微观组织与性能优化等问题开展了广泛的研究。在多主元合金中,CoCrNi三主元合金的塑韧性尤为突出,具有广泛的应用前景。本文以锻态CoCrNi三主元合金为研究对象,对锻造后合金的组织与力学性能的变化、合金拉伸过程中的塑性变形行为以及形变热处理对合金组织与力学性能的影响进行研究。结果表明:(1)经热锻后,合金晶粒得到明显的细化,合金的晶体结构为FCC结构。晶粒内部的大量退
生物质转化利用可将生物质资源进行再利用,这对于节约资源、保护和改善生态环境、促进区域经济和谐发展、缓解人类能源危机具有举足轻重的作用。木质素作为木质纤维类生物质的重要组成成分,同时由于其具有特殊的芳香环结构,使得木质素的高值化利用得到众多科学家的青睐。选择了愈创木酚作为木质素的模型化合物进行研究,由于芳香环不饱和,且该模型物中含有两个含氧官能团,便于研究其加氢脱氧。在催化领域,过渡金属催化剂具有特
随着人类基因组测序的完成,生命科学研究步入了后基因组时代,蛋白质组学则成为了后基因组时代生命科学研究的热点之一。在蛋白质组学中,利用串联质谱对蛋白质序列进行分析鉴
铁路运营对我国人口及资源流通起着至关重要的作用。新修铁路以及进行铁路维护后道床还不能适用于高速铁路运行,因为道砟颗粒之间过于松散,道床密实度较低,道砟之间的相互牵制力和摩擦力较弱,不能对高速运行的列车起到较好的支撑和保护作用,需要通过动力稳定车进行养护。通过稳定车的作用,在激振力的作用下使道砟颗粒紧密排列,大幅增加道床密实度。使道砟颗粒改变位置,使几何形状已经变化的有砟道床恢复,从而提高道床的整体
生态滤池具有能耗低,易于维护等特点,生态滤池中根际微生物对污水的去除有不可忽视的作用。本论文针对贵州省纳录村农村污水生态滤池净化效果及不同植物根际微生物特征进行研究,考察生态滤池对COD、氨氮、总磷、抗生素的去除效果,并分析根际微生物与污水去除的相关关系。研究结果表明:(1)生态滤池对COD、氨氮和总磷的总去除率最高分别为67%、50%和72%,在不同温度下出现较大差异。7月和9月对氧氟沙星(OF
随着社交网络的快速发展,大量用户花费越来越多的时间在社交应用上。与此同时在社交平台上存在海量的微博文本数据、用户之间相互评论转发等互动信息、与用户相关的注册信息
青海大通县东峡林场的青海云杉Picea crassifolia kom和华北落叶松Larix principis-rupprechtii Mayr主要受到云杉球果小卷蛾Cydia strobilella Linnaeas、云杉梢斑螟Dior yc
目的:通过观察“十三鬼穴结合醒脑开窍针刺法”治疗痰浊蒙窍型血管性痴呆的临床疗效,对该针法作出客观性评价,同时分析探讨痰浊蒙窍型血管性痴呆的发病机制及“十三鬼穴结合醒脑开窍针刺法”的作用机理,为日后应用该针刺法治疗痰浊蒙窍型血管性痴呆提供科学依据。方法:将符合纳排标准的60例痰浊蒙窍型血管性痴呆患者,分为治疗组和对照组各30例(采用随机数字表法随机分组)。治疗组采用“十三鬼穴结合醒脑开窍针刺法”治疗
《黄帝内经》是我国中医理论的奠基之作,其本身包含着类似于现代系统论的朴素系统思想。现代系统论随着科学技术的发展,已经具备了相对成熟的理论体系,所以用现代系统论的视角去研究《黄帝内经》,发现其是一个具有极大研究意义的课题。通过对《黄帝内经》的成书背景以及思想渊源的深度分析,得出《黄帝内经》受儒家、道家学说的影响,形成了一种朴素的系统论,但它本身的着眼点并不完全在客观对象的实际联系上,而是一种主观精神
随着全球气候条件的恶化以及环境问题的突出,研究如何开发利用生物可降解材料来减少环境污染、促进可持续发展显得尤为重要。淀粉(Starch)是一种广泛存在于植物体内的天然高分子,具有可再生、生物可降解、生物相容好等特性。由于它的来源丰富、绿色无毒且价格低廉,在工业生产中具有广泛的应用,例如在食品、纺织、造纸等行业。淀粉纳米晶(SNC)是通过酸水解得到的一种新型纳米二维材料,具有高模量、高强度、高结晶度