基于Spark的高维K近邻连接算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:panyh921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决数据量日益增长和数据维度不断增高,通过单机运行K近邻连接算法得出结果时间过长无法满足时效要求的问题,提出一种基于Spark的使用位置敏感哈希函数对数据预处理后再进行查询的算法。利用位置敏感哈希函数对训练集数据降维并进行分桶索引,进行近邻查找,有效利用Spark基于内存的高性能并行计算能力。实验结果表明,该算法对高维大数据具有较高的准确性和查询效率。
其他文献
本文基于"单元制"进行分析,首先概述城市配电网"单元制"规划,然后分析城市配电网"单元制"规划步骤,最后结合案例探究"单元制"在城市配电网规划中的实际应用,希望以此文能够为相关人士提供参考性意见。
在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Ge- neralized Pólya urn(GPU)的改进模型GW _ PhraseLDA。根据专利
本期《钟山》刊载5个中篇,作品数量与份量都难与去年首期的“中篇小说专号”相提并论;值得关注的惟有被列为头条的“80后”作家笛安的《莉莉》(中篇)。
身为单位或部门的领导,特别是集党政于一身的一把手,里里外外免不了要面临一大堆的繁杂事务.在这样的情况下,如果不分巨细,事必躬亲,陷入各种事务中不得脱身,势必导致单位或
专利是制药企业核心竞争力的表现,面对日益复杂的专利竞争,企业专利活动中存在的专利风险不容忽视。本文在专利风险识别的前提下,针对筛选出的典型专利风险进行定性和定量2种
干部人事制度改革的深入和以'四化'为标准的用人导向的形成,为年轻干部提供了前所未有的表现平台和发展空间,一大批年轻干部走上了领导岗位.初踏上领导岗位的年轻干
为提高带权频繁模式挖掘过程中的时空效率,定义事务集合差(the difference of two Tidsets,dTidset)概念,在dTidset的基础上对于WIT-Tree存储结构进行改进和优化,提出一种基于W
随着党政群机关招录工作人员和国家公务员实施"凡进必考"制度,国家机关招录工作人员逐步走上科学化、规范化和制度化.各级机关工作人员的整体素质有了明显提高,招录工作的各
市郊县地处城市边缘,在经济发展上对城市经济有着较强的依赖性,同时与城市经济又有着较强的互补性.因此,市郊县在县域经济发展上必须以战略的眼光审时度势,变区域"边缘"为发