面向海量空间数据的分布式距离连接算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:zgl_0251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间距离连接是空间数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式方法的空间域选取过大、数据倾斜、自连接较慢的问题,提出了一种新的面向海量空间数据的分布式距离连接算法JUST-Join.首先,JUST-Join仅选取必要的空间区域作为全局域,能够提前过滤数据,减少无效的数据传输和不必要的计算开销;然后,同时考虑了参与连接的两个数据集的分布,从而缓解了数据倾斜问题;最后,针对自连接情形的冗余计算,采用平面扫描算法来进一步提高效率.文中使用Spark实现了JUST-Join算法,并利用真实的数据集做了大量实验.实验结果表明,JUST-Join算法在效率和扩展性方面都优于现有的最先进的分布式空间分析系统.
其他文献
近年来,使用单一模型实现多语言神经机器翻译的方法受到了广泛关注.然而,现有方法多将所有语种语料直接混合作为训练语料,未能利用多种语言之间关联和相似的信息.此外,模型训练涉及语言种类多、数据量大、整体训练难度大、耗时长等问题.针对以上两个问题,文中提出了一种基于语种关联度的课程学习方法来提高多语言神经机器翻译的整体性能和收敛速度.具体来说,提出了两种度量语种关联度的指标:使用奇异向量典型相关分析对不同语言进行排序以及使用余弦相似度对特定语言中的不同句子进行排序.进一步,文中提出以验证集损失为课程替换标准的课
高校教师创新创业教育能力的提升是深化创新创业教育发展的关键.当前对教师创新创业能力的研究大多从教师自身的角度出发,从宏观上给出提升教师创新创业教育能力的一般性对策,而忽略了企业的反馈作用.以问卷调查的方式向全国196家企业进行调研,从企业创始人角度探索教师创新创业教育能力提升与促进学生创新创业活动之间的关系.通过有序多分类Logistics模型,从自我发展、社会参与以及胜任工作三个方面研究教师创新创业教育能力提升策略.
多语言神经机器翻译利用单一的编码器-解码器模型对多种语言之间的翻译同时进行建模.多语言神经机器翻译不仅能够促进关联语言之间的知识迁移,提高低资源语言的翻译质量,并且能够实现未见语言对之间的翻译.现有多语言神经机器翻译仍然存在语言多样性建模能力不足和未见语言对翻译质量不佳的问题.为此,首先在现有的适配器模型基础上提出变维双语适配器模型,在Transformer模型的每个子层之间加入双语适配器以抽取每个语言对的独特特征,并通过改变适配器隐层维度调整编码器和解码器两端的特定语言表达空间;其次,提出一种共享单语适
随着以微博为代表的社交媒体越来越流行,谣言信息借助社交媒体迅速传播,容易造成严重的后果,因此自动谣言检测问题受到了国内外学术界、产业界的广泛关注.目前,越来越多的用户使用图片来发布微博,而不仅仅是文本,微博通常由文本、图像和社会语境组成.因此,文中提出了一种基于深度神经网络,针对配文文本内容、图像以及用户属性信息的多模态网络谣言检测方法DCNN.该方法由多模态特征提取器和谣言检测器组成,多模态特征提取器分为3部分,即基于TextCNN的文本特征提取器、基于VGG-19的图片特征提取器和基于DeepFM算法
多语言问答是自然语言处理领域的研究热点之一,其目的是给定不同语种的问题和文本,模型能够返回正确的答案.随着机器翻译技术的快速发展及多语言预训练技术在自然语言处理领域中的广泛应用,多语言问答也取得了较快的发展.文中首先系统地梳理了当前多语言问答方法的相关工作,并将多语言问答方法分为基于特征的方法、基于翻译的方法、基于预训练的方法和基于双重编码的方法,分别介绍了每类方法的使用和特点;然后系统地探讨了当前多语言问答任务的相关工作,将多语言问答任务分为基于文本的多语言问答任务和基于多模态的多语言问答任务,并分别给
随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多.语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈.文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难.并在此基础之上,探索了最新的端到端语音识别技术在关键词检索系统构建上的作用,以进一步改善系统的整体效果.最后总结了如下最新研究进展:1)基于模型参数共享的多语言声学建模;2)基于语种分类信息的多
科研网络是一类动态变化的异构信息网络,科研网络上的社区检测能挖掘出学术主体的所属社区并发现蕴含于科研社区中的洞察.既有的社区检测算法忽略了科研网络的动态特征和科研主体间的特殊关系,未将科研社区内部的紧密程度和社区间的关系纳入社区检测算法中予以优化,对此提出了一种基于动态科研网络表示学习的社区检测算法DANE-CD.首先基于科研网络自编码器学习科研网络中学术主体的表示向量,然后创新性地在表示学习过程中融入了基于模块度和团队断裂带两个维度的聚类优化,最后基于堆栈自编码器构造了动态科研网络表示学习模型,同时完成
近十年来,端到端的语音识别框架发展迅速.区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能.因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架.针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提出了一种基于端到端语音识别和帧级别对齐的关键词检索框架,并在越南语数据集上进行了实验验证.首先,使用端到端语音识别模型解码待测语句,得到N-最佳假设;然后,从一个与上述识别模型联合训练的音素
窃电对社会和经济发展造成了重大损害.如何基于电力大数据来检测用户恶意窃电行为,已受到学术界和工业界的广泛关注.针对传统方法依赖于手工特征、行为序列表征不足和检测精度差等问题,提出了一种基于多头注意力机制的窃电检测模型(Electricity Theft Detection Based on Multi-Head Attention,ETD-MHA).该模型基于双向门控循环神经网络(Bidirec-tional Gated Recurrent Unit,BiGRU)充分捕获用户用电行为序列的时序特征,引入多
为全面提升张家界车务段石门县北站运输能力,打通焦柳线与石长线列车通过能力瓶颈问题.笔者通过对石门县北、石门县南、石门县等站到发线运用、接发列车、机车进出库、专调机车运用、施工维修作业等作业层面进行写实调研,从如何提高通道能力和提质营运管理视角分析存在的问题,并以问题和需求为导向,围绕“能力提升、定位提高”,提出打造石门县北枢纽的措施和建议.