大数据环境下高维数据的快速重复检测方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:weizai111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代多源、异构、海量的数据正逐渐成为各种应用的主流.多源异构不可避免地会使数据出现重复,同时庞大的数据量对重复检测的效率提出了极高的要求,传统技术在大数据环境下并不能很好地对高维数据进行重复检测,就此问题展开研究,分析了传统SNM类方法的不足,将重复问题概化为一类特殊的聚类问题,利用R-树建立了高效的索引,利用聚类簇的特性减少了在R-树叶子中比较的次数,利用重复检测的Apriori性质实现了对高维数据集并行处理.实验结果表明,提出的算法能有效地提高高维数据的重复检测效率.
其他文献
引进Petri网概念刻划图标的动态行为和相互作用并给邮一个可视化编程系统,通过例子说明本系统在编程阶段和程序运行阶段所采用的可视化技术。
2009年12月,由中国科学院福建物质结构研究所联合江苏丹化集团和上海金煤化工公司开展的技术攻关世界首创20万t/a煤制乙二醇工业示范项目打通了全流程,试车成功并生产出合格的乙
受国际市场逐渐回暖等因素影响,焦作市外贸出口大幅增长。2010年前两个月,全市外贸出口额达11467万美元,较去年同期增长53.3%,高于全省平均水平26.6%,出口总额居全省第三位。
作为非谓语动词的一种形式,具有动词的特征及具有形容词和副词的功能,在汉语长句译英过程中起着非常重要的作用。该文首先分析了汉英两种语言在句子结构上的差异,在此基础上
时间序列建模问题因有着重要的应用价值已经成为机器学习领域的研究热点之一.循环神经网络(recurrent neural network,RNN)是近年来时间序列建模的一个重要工具.但是,现有循
矿产资源萤石是一种不可再生的自然资源,在绝大部分应用领域是不可被替代或不可完全被替代的。据中国化学矿山工业协会的资料显示,未来20a,中国萤石需求量是3700万t,而目前中国具
2010年2月下旬,国内苯酚市场平稳运行,行情继续处于平淡状态。市场分析人士认为,面对平平淡淡的市场,下游买家的采购心态表现复杂。据部分酚醛下游用户反映,春节长假过后,终端客户
2010年4月国内苯酚价格涨幅位居主要化工产品的第三名,上涨幅度达到18%左右,但这种强势行情没能在5月份延续。由于原油价格不断下滑、大宗化工产品市场气氛不佳,使买家的积极性减
2014年春,艺术长廊又一期的“迎新春、贺新年”画展开幕。这是五年级学生小白的个人专题画展,学生、家长和老师们纷至沓来,争相观展与祝贺。
中国双酚A市场价格区间较为混乱,市场价格缺乏统一性。国内主要供应厂家上海中国石化三井和上海拜耳双酚A的出厂价格均上调13800元/t,部分市场价格高报在13800元/t,但此价位成交难