【摘 要】
:
近年来科学信息技术的飞速发展大大提高了数据生产的速度,大量的数据在带来巨大的存储压力同时,也带来了巨大的研究价值与商业价值。面对大数据集成的迫切需求,研究者们提出
论文部分内容阅读
近年来科学信息技术的飞速发展大大提高了数据生产的速度,大量的数据在带来巨大的存储压力同时,也带来了巨大的研究价值与商业价值。面对大数据集成的迫切需求,研究者们提出分布式文件系统解决存储问题并且研发新的计算框架来缓解大数据计算的压力。目前各方面性能较好的计算框架是伯克利实验室提出的Spark计算框架。相似性连接技术是数据集成以及实体识别等应用的一个重要步骤,它将在单一数据源或者多个数据源中找到满足相似度阈值的记录对。但是随着数据量爆炸性增长,单机的相似性连接很难满足人们对处理效率的需求,因此,需要面向大数据的相似连接算法来解决目前的问题。本文以大量真实论文数据为研究对象,并对现有的相似性连接技术进行分析与研究。首先,研究分布式前缀索引过滤。在现有的分布式前缀索引基础之上,利用Spark实现新的分布式相似连接,并且依据分布式计算模型特点,提出了 O-T算法,该算法可以减少候选集合的大小。同时,提供了基于Spark多表相似连接RSJoin的分布式计算方案。根据以前缀索引为基础进行扩展的AdapJoin的实现原理,将其移植到分布式环境下进行计算,实验证明AdapJoin在分布式环境下计算有效。其次,研究基于位置信息过滤的特点,提出了双缀过滤相似连接PSJoin及其改进算法相似连接PSJoin+。双缀过滤算法利用一条记录前缀和另一条后缀之间的共同元素的位置信息,对相似度进行估算,使估计的相似度的上限贴近真实值。并且通过实验可证明其在分布式计算中有效性。最后,研究基于权重信息过滤的特点。详细分析了关于权重计算的特点以及与前缀过滤之间的联系与区别,根据token赋值权重特点提出了三种关于基于token权重的分布式计算的过滤方法,WTBFilter、WTFilter和WTPFilter,并依靠Spark平台实现分布式相似连接WTBJoin、WTJoin和WTPJoin,特别是WTPFiler利用token权重值进行过滤,有效地减少过滤阶段候选集合大小。并且通过实验验证WTJoin 和 WTPJoin 有效性。综上,本文以前缀过滤为基础,利用分布式计算实现所提出的算法并且通过实验证明所提出算法的有效性。
其他文献
从计算机互联网时代,到万物互联的物联网时代,互联的对象不再仅仅局限于计算机。但是目前没有一套规范的物联网开发通信协议和物联网对象接入方法,实现的仅仅是局部的“万物
社会救助家庭经济状况核对是新型社会救助体系的一项基础工程。作为精准救助困难群众至关重要的前置环节,核对工作在当前扶贫攻坚形势下,更加突出精准,愈发注重高效,各方面都必须实现精细化治理。对于天津市而言,核对工作正式启动刚满两年,在起步阶段走向成熟的时期,不可避免地会面临诸多难度与挑战。本文基于精细化视角对天津市社会救助家庭经济状况核对工作进行研究,注重理论与实践相结合。通过文献法梳理国内外核对工作研
长期以来,我国高等教育发展一直是执行“顺经济发展周期”,那么伴随着中国社会经济的持续发展,本科教育不仅要能从数量上满足社会经济的发展,而且还要能从质量上先胜一筹。2010年
自然语言中广泛存在的缺省和指代现象,使得文本在全局层面包含语义缺失的问题,对机器理解带来了难度和严峻挑战。本文针对维吾尔语中具备典型指称特性的人称代词进行指代消歧
随着高度信息化时代的到来,对于作为网络上信息传输主要载体的文本信息的组织、管理不仅可以对文本信息进行分门别类的存储,也可以使用户在检索有效信息时更加高效便捷。为了
随着中国资本市场的日益发展,A股市场正以其高估值和高流动性越来越具有吸引力。同时随着一些海外上市的中概股频繁遭遇机构做空,增加了其在海外融资难度,因此一些中概股也积
近年来我国信息科技迅速发展,无线通信技术不断进步,使得移动服务这种新兴服务发展更为蓬勃,很多传统服务被移植到手机终端上。特别是2020年新冠肺炎疫情的突然爆发,线下的学习、生产与生活场景快速向云端转移,移动办公、移动教育、移动政务、移动医疗等移动服务成为延期复工、开学的人们的刚需,移动服务迎来爆发式发展。各个互联网企业都因势利导、各展拳脚,然而当前产品同质化日趋严重,移动服务企业只有通过提供更好的
目前最为广泛的计算机体系架构是冯·诺依曼架构,在此架构中计算机的处理设备(CPU)与存储器设备是分离的,处理器与存储器通过数据总线通道链接。而这种将存储器与处理器分开
合成孔径雷达(Synthetic Aperture Radar,SAR)凭借其全天时、全天候的特性,现成为获取地表信息的重要遥感技术手段之一。相比于单极化SAR,全极化SAR(Polarimetric SAR,PolSAR)能够提供更多细节和地物散射信息,如何快速而准确地解译这些信息,已成为SAR技术研究的重点内容。而建筑物提取作为极化SAR影像解译中的研究热点之一,受到了越来越多学者的关注。极化
煤炭是我国的主体能源和重要的工业原料,煤炭工业作为重要的基础产业,有力支撑了我国国民经济和社会平稳较快发展。国家社会经济的发展离不开煤炭资源,但煤炭开采将可能导致