【摘 要】
:
极限多标签分类是机器学习领域一个新兴的研究方向,它常被用于推荐系统、文本分类等实际应用场景中。这些应用通常数据体量大、对模型的训练速度要求高,因此,加快模型的训练速度成为了极限多标签分类的主要研究方向,本文也以加快模型的训练速度为主要研究内容。标签树模型因其解释性好、训练速度快,成为了极限多标签分类的主要解决方法。本文以标签树为研究对象,针对标签树难以并行化的问题,发掘结点间的数据无关性以及结点层
论文部分内容阅读
极限多标签分类是机器学习领域一个新兴的研究方向,它常被用于推荐系统、文本分类等实际应用场景中。这些应用通常数据体量大、对模型的训练速度要求高,因此,加快模型的训练速度成为了极限多标签分类的主要研究方向,本文也以加快模型的训练速度为主要研究内容。标签树模型因其解释性好、训练速度快,成为了极限多标签分类的主要解决方法。本文以标签树为研究对象,针对标签树难以并行化的问题,发掘结点间的数据无关性以及结点层数和训练时间的指数关系,提出了线程级别的两阶段并行方法,对同层结点的分裂过程以及单个结点的平衡k均值算法进行并行,将训练时间从27小时缩短至1小时。同时,该方法可在单机上运行,最小化硬件开销。在极限多标签分类中,大量的训练数据需要学习大量的参数,此时单机内存不足就成为了限制模型训练的一大障碍。本文首先从算法角度出发,将模型的参数矩阵分割成若干小参数矩阵。然后,使用MPI将其分发到不同节点进行参数的分布式训练,并对MPI的分发和接收过程进行优化,最大化重叠模型训练和进程间通信。实验表明,模型的预测准确率达到81.30%,与其他模型基本持平,但加速比高达23,在保持模型预测准确率的同时,大幅缩短模型的训练时间。
其他文献
人们对建筑热舒适性的追求越来越高,建筑能耗居高不下,建筑节能对实现可持续发展目标具有深刻意义。目前的建筑材料因热质量和热惰性较差,无法满足建筑节能的需求。将相变材
“身国一体”指的是:其一,统治者是集治身与治国于一体的存在;其二,治身即治国,治国即治身,身国互喻;其三,统治者在治身与治国上有共同的原则,二者之间可以互通。“身国一体”并非由老子直接提出,本文将其视为老子“身国关系”与“圣人之道”的体现。在老子思想中“身”的含义可分为三个层面:一是作身体而言;二是作生命而言;三是作为自己或自身。“国”在老子思想中指的是“诸侯国”。要准确把握老子思想中“治国”的内
混凝土是一种脆性材料,在施工与服役过程中容易产生裂缝。服役在海洋环境下的混凝土一旦开裂,裂缝将加快外部侵蚀性离子进入混凝土内部,大幅缩短海工混凝土结构的服役寿命。
锂硫电池因其高理论容量1675 m A h g-1、高储能密度2500 Wh kg-1、成本低等优点受到了特别的关注,并逐渐成为下一代储能设备最有希望的候选者之一。但是,由于硫电极在工作过
锂硫电池具有比能量高、成本低、环境友好等优点,在为高性能移动电子设备供能和缓解环境问题方面有着广阔的前景。但是锂硫电池在实际应用中面临着一些障碍,其中包括寿命短、
核酸是一种广泛存在于有机体内的生物大分子,是生命最基本的物质之一。由于其重要的生物学功能,核酸作为一类重要的疾病标志物,广泛用于疾病的诊断与治疗。另外,由于核酸具有
斜纹夜蛾(Spodoptera litura)是一种全球范围内广泛存在的杂食性农业大害虫,已对多种常用杀虫剂产生了较高的耐药性。影响昆虫耐药性的因素有很多,除了研究较多的农药的不合
职业年金是职业人的养老金,其与社会保险制度中的基本养老保险存在一定的差异,主要是建立在基本养老保险制度基础之上,创建的养老福利制度,是我国养老产业第二支柱。我国从2011年正式提出在事业单位实施职业年金制度,由于我国政府机关和事业单位的薪酬制度、养老金的属性和改革历程基本一致,所以,我国的职业年金计划一般是指政府机关及事业单位的补充养老金制度。职业年金计划的目的是保值增值,那么,如何对基金进行有效
我国经济增长变慢的背景之下,资源环境约束趋向于紧张,因此在目前的经济发展趋势中,绿色发展理念成为引领当前中国经济发展转型的基本宗旨。在绿色发展转型的要求中,能源效率是很重要的一方面。能源效率作为考量绿色发展和能源使用情况的关键指标,是在现在的经济和能源约束之下破解两者之间矛盾的核心。和一般的经济衡量指标不同,出口竞争力是一个可以更全面、全景式地衡量我国经济在世界范围内的地位和发展方向的指标,应当深
割草机蜗壳就是指割草机机体,因为它的外形很像蜗牛壳,故通常简称蜗壳。割草机使用时高速旋转的刀片很容易割到石子、树桩等隐藏在草内的杂物,它们在刀片巨大的冲击力下被抛