基于Spark的高维K近邻连接算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：panyh921

【摘要】

：

为解决数据量日益增长和数据维度不断增高,通过单机运行K近邻连接算法得出结果时间过长无法满足时效要求的问题,提出一种基于Spark的使用位置敏感哈希函数对数据预处理后再进

【作者】

：

纪佳琪郑永基

【机构】

：

河北民族师范学院信息中心,圆光大学计算机工学院

【出处】

：

计算机工程与设计

【发表日期】

：

2018年8期

【关键词】

：

K近邻连接高维大数据哈希函数并行计算 K nearest neighbor joinhigh dimensionbig datahash functio

【基金项目】

：

承德市科学技术研究与发展计划基金项目（201801A080）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决数据量日益增长和数据维度不断增高,通过单机运行K近邻连接算法得出结果时间过长无法满足时效要求的问题,提出一种基于Spark的使用位置敏感哈希函数对数据预处理后再进行查询的算法。利用位置敏感哈希函数对训练集数据降维并进行分桶索引,进行近邻查找,有效利用Spark基于内存的高性能并行计算能力。实验结果表明,该算法对高维大数据具有较高的准确性和查询效率。

其他文献

“单元制”在城市配电网规划中的应用

本文基于"单元制"进行分析,首先概述城市配电网"单元制"规划,然后分析城市配电网"单元制"规划步骤,最后结合案例探究"单元制"在城市配电网规划中的实际应用,希望以此文能够为相关人士提供参考性意见。

期刊

单元制城市配电网单元格

欧盟制定曲霉毒素新标准

期刊

最大限量婴幼儿食品曲霉毒素婴儿食品

面向专利的主题短语提取

在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Ge- neralized Pólya urn(GPU)的改进模型GW _ PhraseLDA。根据专利

期刊

专利挖掘短语抽取双向长短时记忆网络条件随机场主题模型patent miningterm extractionbidirectional long sh

看《钟山》

本期《钟山》刊载5个中篇，作品数量与份量都难与去年首期的“中篇小说专号”相提并论；值得关注的惟有被列为头条的“80后”作家笛安的《莉莉》（中篇）。

期刊

《钟山》中篇小说“80后”

繁杂事务中的抽身艺术

身为单位或部门的领导,特别是集党政于一身的一把手,里里外外免不了要面临一大堆的繁杂事务.在这样的情况下,如果不分巨细,事必躬亲,陷入各种事务中不得脱身,势必导致单位或

期刊

领导方法分工负责制工作重点制度管理领导艺术

构建我国制药企业专利风险评估机制的研究

专利是制药企业核心竞争力的表现,面对日益复杂的专利竞争,企业专利活动中存在的专利风险不容忽视。本文在专利风险识别的前提下,针对筛选出的典型专利风险进行定性和定量2种

期刊

专利风险风险评估评估机制

年轻领导履新的辩证工作法

干部人事制度改革的深入和以'四化'为标准的用人导向的形成,为年轻干部提供了前所未有的表现平台和发展空间,一大批年轻干部走上了领导岗位.初踏上领导岗位的年轻干

期刊

年轻领导干部人事制度改革辩证工作法工作态度领导岗位

基于WIdT-Tree的带权频繁模式挖掘算法

为提高带权频繁模式挖掘过程中的时空效率,定义事务集合差（the difference of two Tidsets,dTidset）概念,在dTidset的基础上对于WIT-Tree存储结构进行改进和优化,提出一种基于W

期刊

带权频繁模式事务集合差分治策略带权支持度weighted frequent patterns dTidset divide and conquer st

建立面试公正机制须做到四个规范

随着党政群机关招录工作人员和国家公务员实施"凡进必考"制度,国家机关招录工作人员逐步走上科学化、规范化和制度化.各级机关工作人员的整体素质有了明显提高,招录工作的各

期刊

面试公正机制党政机关中国共产党面试题目面试质量考官素质

借“市”而为建好“三园”——对市郊县发展县域经济的一点思考

市郊县地处城市边缘,在经济发展上对城市经济有着较强的依赖性,同时与城市经济又有着较强的互补性.因此,市郊县在县域经济发展上必须以战略的眼光审时度势,变区域"边缘"为发

期刊

市郊县县域经济品牌战略休闲旅游农副产品消费需求

基于Spark的高维K近邻连接算法

与本文相关的学术论文