一种新的基于Bloom filter数据结构的数据消冗算法

来源 :南昌大学学报(理科版) | 被引量 : 0次 | 上传用户:jch26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对以往数据消冗算法存储消耗高,时间消耗久以及重复率检测效果不是十分理想,引入Bloom filter数据结构将大数据进行降维处理,提出了一种新的数据消冗算法,该算法首先利用完全文件检测算法对数据进行检验匹配,通过的数据块再利用CDC分块检测算法进行进一步检测匹配,依据余弦相似度公式以及Hamming距离值计算数据相似度,最终完成数据消冗。仿真实验结果表明本文提出的数据消冗算法综合性能良好,既确保了检测数据重复率的准确性又提高了数据检测速度,同时降低了存储开销。
其他文献
从神农架金丝猴的粪便中分离出1株益生菌株dlt7a,经鉴定为粪肠球菌。为进一步提高发酵液中dlt7a的活菌数量,对菌株dlt7a的发酵工艺进行优化。通过单因素水平试验,确定dlt7a的
进入21世纪后,随着社会事务的复杂化,政府与第三部门之间形成了密切的合作关系,通过相互合作来进行社会管理。合作是以信任为基础的,政府与第三部门合作也应以合作型信任为基础。
现代社会交通繁忙,物流发达,安装汽车行驶记录仪后,能真实、准确反映车辆运行中的实际状况,记录相关的监控数据。可以达到优化调度管理,降低运营成本,及时提醒、防止事故和用于路面
习语是人们经过长时间的使用而提炼出来的固定短语或短句,是人民智慧的结晶,语言的精华.本文从英汉习语的概念、来源等方面进行比较,论述其异同,以期对习语运用能力的提高有
以WI998、7223G、BC1、DX3-5、MS5(可育系)、MS5(不育系)6个品种的甜瓜(Cucumis melo L.)柱头为研究材料,测定不同品种各时期柱头可溶性糖、可溶性蛋白质、氨基酸、总酚含量,
为清洁生产定量考核和指标化管理提供一个科学的评价方法. 阐述了清洁生产常用的评价方法,重点评价了模糊数学法的原理、内容与评价模式等. 可评估清洁生产前后企业各个环节
选用实验室自酿玫瑰香红葡萄酒为原料,研究了温度、pH、光照、氧化剂、还原剂对花色苷稳定性的影响。结果表明:温度越高、处理时间越长花色苷降解越多;pH对花色苷的影响非常大
利用GIS的空间数据管理和分析功能,在GIS平台上对东营市中心城区浅层地下空间资源进行了评估。首先就东营市区的工程地质特征和城市地下空间资源开发及需求状况进行了调查和分
目的探讨病例汇报形式在儿科临床思维培养模式中的作用。方法选取2014年7月-2015年8月在我科实习的内蒙古医科大学临床专业本科生100人,按不同的实习带教方法分为对照组和实
本院从1986~2000年收治肺心病188例,合并冠心病者34例,将其临床特点和诊断分析如下.