Web大数据环境下的相似重复数据清理

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:zyf115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。
其他文献
期刊
参谋人员是执行领导决策的中间群体,正确执行领导决策,发挥好参谋作用,是一种能力的体现.其要素很多,笔者认为,以下三点尤其重要.
胡锦涛总书记在中央党校举办的省部级主要领导干部提高构建社会主义和谐社会能力专题研讨班上的讲话中指出:"在我们这样一个农民占多数人口的国家里,农民是否安居乐业,对于社
目的确保在手术室护理中应用细节护理工作时的实际效果。方法选择近两年在我院原治疗的手术患者。本次研究的患者实例为136例,采取随机分配的方法分为两组,分别是对照组与观
非对称限幅光正交频分复用(ACO-OFDM)系统中基于传统部分传输序列(PTS)的峰均比(PAPR)抑制算法存在复杂度过高,需要传送边带信息的问题。在优化后的OFDM符号中直接插入边带信息会导致PAPR再升,带来传输速率损失。针对上述不足,提出一种基于阈值迭代的PTS改进算法。在搜索最优相位因子时,当PAPR小于给定阈值时,停止迭代降低计算复杂度。仿真结果表明,和传统PTS算法相比,PAPR抑制效
媒体融合的纵深发展,成为了新时代宣传工作的有力抓手,高校宣传思想文化工作有了新的契机,同时也面临严峻考验。融媒体时代下,如何利用传统媒体与新兴媒体的优势做好宣传思想
目的探讨老年糖尿病合并急性心肌梗死的临床特点。方法 90例老年糖尿病合并急性心肌梗死患者作为研究组,90例老年非糖尿病心肌梗死患者作为对照组,分析对比两组患者临床表现
国务院召开全国扶贫开发工作会议 全国扶贫开发工作会议于2月28日至3月3日在北京召开。会议的主要任务是全面部署实施“国家八七扶贫攻坚计划”。
政绩,顾名思义,指领导干部的执政实绩."政疾",显而易见,是领导干部的执政问题.对于有政治抱负、事业心和责任感的党员领导干部来说,都会设法抓好工作,努力创造政绩,力求不出"
采用温室盆栽试验研究了不同用量古龙酸母液和废弃北虫草培养基制备的有机肥对设施黄瓜的增产效果及对土壤养分和微生物量碳的影响。结果表明,施肥量为15.0和30.0 t·hm-2时,