【摘 要】
:
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易
【机 构】
:
东北大学信息科学与工程学院,国防科学技术大学信息系统与管理学院
【基金项目】
:
国家重点基础研究发展计划(973)项目(2012CB316201);国家自然科学基金(61272179,61173028);教育部博士点基金(20120042110028);教育部-英特尔信息技术专项科研基金(MOE-INTEL-2012-06)资助
论文部分内容阅读
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理。因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一。首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案。
其他文献
文章通过解读欧美出版上市公司的年报,分析其经营战略、商业模式和运营策略,为我国出版上市公司提供参考和借鉴。作者选取了培生集团公司、麦格劳·希尔教育集团公司和约翰·
扬帆起航2003年,24岁的罗荣荷是福建省一家成熟机床贸易企业的员工,在这里,他凭借着自己的专业和实力,享受着优厚的待遇。"作为企业的骨干,企业为了能够留住我,不但给予了我
在社会转型期,随着城乡之间大规模的农民工流动,“留守儿童”群体的规模亦也越来越大。他们的生活现状及其面临的困境也成为政府和社会关注的社会问题。因此,留守儿童逐渐成
γ-氨基丁酸为一种天然存在的非蛋白质氨基酸,具有多种生理功能。本文综述了米类粮食、豆类粮食和麦类粮食中γ-氨基丁酸的富集方法,并对γ-氨基丁酸的应用前景进行了展望。
绩效考核注重对个人工作表现和效果的考核,有利于提高个人收益和组织的整体运行效果,对改变高校传统的人事考核管理模式和提高高校办学效益具有重要的意义。高校教职工绩效考
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
目的 探讨个体化康复辅助器具(以下简称康复辅具)在脑瘫患儿康复治疗中的临床应用效果。方法 回顾性分析2014年7月至2015年7月就诊于本院的60例脑瘫患儿的临床资料,按照患儿家
【摘要】媒介融合是现代媒介技术发展的必然趋势,也是社会进步的象征。在媒介融合发展中,传统电视媒体正面临巨大冲击,这其中新闻采编业务所受的影响尤甚。对此,本文介绍了媒介融合的概念与特点,然后据此分析了媒介融合对电视新闻采编业务的影响,进而提出了媒介融合发展中县级电视台新闻采编业务的优化策略。 【关键词】新闻采编;媒介融合;新闻传播 1. 媒介融合概述 所谓媒介融合,从狭义上讲就是各种媒介形态相