大数据环境下高维数据的快速重复检测方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：weizai111

【摘要】

：

大数据时代多源、异构、海量的数据正逐渐成为各种应用的主流.多源异构不可避免地会使数据出现重复,同时庞大的数据量对重复检测的效率提出了极高的要求,传统技术在大数据环

【作者】

：

朱蔚恒印鉴邓玉辉龙舜邱诗定

【机构】

：

暨南大学信息科学技术学院,中山大学信息科学与技术学院

【出处】

：

计算机研究与发展

【发表日期】

：

2016年3期

【关键词】

：

大数据高维数据数据挖掘数据预处理重复检测 big datahigh dimension datadata miningdata preprocessin

【基金项目】

：

国家自然科学基金项目（61472453,61272073,61401177,61572232,U1401256,U1501252）,广东省自然科学基金项目（S2013020012865）,广东省科技计划基金项目（2013B010401017）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据时代多源、异构、海量的数据正逐渐成为各种应用的主流.多源异构不可避免地会使数据出现重复,同时庞大的数据量对重复检测的效率提出了极高的要求,传统技术在大数据环境下并不能很好地对高维数据进行重复检测,就此问题展开研究,分析了传统SNM类方法的不足,将重复问题概化为一类特殊的聚类问题,利用R-树建立了高效的索引,利用聚类簇的特性减少了在R-树叶子中比较的次数,利用重复检测的Apriori性质实现了对高维数据集并行处理.实验结果表明,提出的算法能有效地提高高维数据的重复检测效率.

其他文献

引入Petri网概念的可视编程系统的设计

引进Ｐｅｔｒｉ网概念刻划图标的动态行为和相互作用并给邮一个可视化编程系统，通过例子说明本系统在编程阶段和程序运行阶段所采用的可视化技术。

期刊

可视化程序设计PETRI网可视编程系统程序设计

中国煤制乙二醇技术工业化应用成为趋势

2009年12月，由中国科学院福建物质结构研究所联合江苏丹化集团和上海金煤化工公司开展的技术攻关世界首创20万t／a煤制乙二醇工业示范项目打通了全流程，试车成功并生产出合格的乙

期刊

工业化应用中国科学院成套技术乙二醇福建物质结构研究所煤催化加氢合成示范项目

河南省焦作市钛白粉出口量大幅增长

受国际市场逐渐回暖等因素影响，焦作市外贸出口大幅增长。2010年前两个月，全市外贸出口额达11467万美元，较去年同期增长53．3％，高于全省平均水平26．6％，出口总额居全省第三位。

期刊

出口量焦作市钛白粉河南省外贸出口国际市场出口额

现在分词在汉语长句英译过程中的功能探析

作为非谓语动词的一种形式,具有动词的特征及具有形容词和副词的功能,在汉语长句译英过程中起着非常重要的作用。该文首先分析了汉英两种语言在句子结构上的差异,在此基础上

期刊

现在分词汉语长句结构差异

时频联合长时循环神经网络

时间序列建模问题因有着重要的应用价值已经成为机器学习领域的研究热点之一.循环神经网络(recurrent neural network,RNN)是近年来时间序列建模的一个重要工具.但是,现有循

期刊

循环神经网络长时依赖频域分析时间序列分类时间序列预测recurrent neural network(RNN)long-term dependency

氟化工资源综合利用刻不容缓

矿产资源萤石是一种不可再生的自然资源，在绝大部分应用领域是不可被替代或不可完全被替代的。据中国化学矿山工业协会的资料显示，未来20a，中国萤石需求量是3700万t，而目前中国具

期刊

资源综合利用氟化工自然资源矿产资源矿山工业开采价值可再生萤石

苯酚市场平淡中蕴育商机

2010年2月下旬，国内苯酚市场平稳运行，行情继续处于平淡状态。市场分析人士认为，面对平平淡淡的市场，下游买家的采购心态表现复杂。据部分酚醛下游用户反映，春节长假过后，终端客户

期刊

市场分析苯酚商机酚醛树脂平稳运行生产成本市场走势

苯酚市场行情由强转弱

2010年4月国内苯酚价格涨幅位居主要化工产品的第三名，上涨幅度达到18％左右，但这种强势行情没能在5月份延续。由于原油价格不断下滑、大宗化工产品市场气氛不佳，使买家的积极性减

期刊

市场行情苯酚化工产品原油价格产品市场国内气氛

带学生走宽阔的艺术之路

2014年春，艺术长廊又一期的“迎新春、贺新年”画展开幕。这是五年级学生小白的个人专题画展，学生、家长和老师们纷至沓来，争相观展与祝贺。

期刊

学生艺术五年级画展老师家长

中国双酚A市场价格混乱

中国双酚A市场价格区间较为混乱，市场价格缺乏统一性。国内主要供应厂家上海中国石化三井和上海拜耳双酚A的出厂价格均上调13800元／t，部分市场价格高报在13800元／t，但此价位成交难

期刊

市场价格中国石化双酚A出厂价格统一性上海

大数据环境下高维数据的快速重复检测方法

与本文相关的学术论文