Spark下的并行多标签最近邻算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:cheer4you
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。
其他文献
目的探讨七氟醚对结肠癌根治术老年患者血液流变学及免疫功能的影响。方法选择2014年5月至2015年5月住院并择期行结肠癌根治术患者83例作为研究对象,将其随机分为观察组45例
本文整理国外一些成功运用企业与学校协同育人的新型学徒制人才培养模式的经验和做法,并结合华夏职业学院与广州亨龙智能装备股份有限公司的深度校企合作共同创建亨龙智能装
微波辐射可以加速化学反应速度,改变化学反应历程,获得新的反应产物,实现某些常规方法不能进行的反应.本文综述了微波技术在合成方面的应用和研究情况,展示了微波技术的发展
秦呜鹤唐代生活的籍贯西域的名医,治疗眼科疾病等出名,本文对秦呜鹤生平和医学活动进行探索。
利用斜线升温, 温度保持两种模式测定钼粉中氧含量, 并对钼粉中几种氧存在的形式进行了讨论.
在叙述了我国道路标线涂料的发展近况后提出:要提高道路标线涂料的质量,配方是根本,原材料是基础,必须健全质保体系,坚持科学试验,做好小样和路试,严格检测,执行质量认证制度
讨论了三种封闭剂不同加量、温度和时间对聚氨酯预聚体封闭反应的影响。对封闭前后和加热解封后的红外图谱作了比较。测定了封闭与不封闭聚氨酯固化后的性能。
高层建筑的逐渐兴起,大多城市都采取了具备功能效益的地下室箱型基础作为承载上部分建筑主体的主要手段,因其本身浇筑与使用功能的规范性,需要地下室环境相对满足湿度与完整
期刊