【摘 要】
:
决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使每次参与基尼值计算的都是一个完整的属性列,以减少数据节点之间信息交流造成的网络资源占用;其次采用Fayyad算法对连续属性进行离散化,以降低决策树训练过程中基尼值的计算频次;最后使用基尼指数来训练决策树模型以降低计算复杂度。实验结果表明,在分类精度方面,SP
【机 构】
:
西华师范大学计算机学院,西华师范大学物联网感知与大数据分析南充市重点实验室
【基金项目】
:
国家自然科学基金面上项目(61871330),西华师范大学英才基金项目(17YC148),西华师范大学博士启动基金项目(16E008)。
论文部分内容阅读
决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使每次参与基尼值计算的都是一个完整的属性列,以减少数据节点之间信息交流造成的网络资源占用;其次采用Fayyad算法对连续属性进行离散化,以降低决策树训练过程中基尼值的计算频次;最后使用基尼指数来训练决策树模型以降低计算复杂度。实验结果表明,在分类精度方面,SP
其他文献
在柑橘汁的加工过程中,杀菌环节是影响其品质好坏的关键工序。本文综述了热杀菌方法和非热杀菌方法在柑橘汁生产过程中的应用及其对柑橘汁品质的影响。研究发现:热杀菌是目前柑橘汁加工中最常用的有效杀菌方式,但对柑橘汁的品质保持效果不如非热杀菌;多种杀菌技术的联用是柑橘汁杀菌技术提升的一个发展方向。
古滑坡复活是青藏高原东缘横断山区典型的地质灾害形式之一,昌都市芒康县帕学岗村一处古滑坡堆积体局部发生复活,通过InSAR形变分析、遥感影像解译和野外调查复核,进行滑坡堆积体局部复活特征的研究,评价其现今的变形特征和可能的失稳模式.结果显示:帕学岗滑坡堆积体上局部复活滑坡的主要形变特征为坡体中下部的蠕滑变形,InSAR的LOS方向平均形变速率达到21 mm/a,最大形变速率40 mm/a.滑坡堆积体存在沿新滑面滑动失稳的可能.相关结果可为复活滑坡的现状评价以及防灾减灾工作提供支撑.
利用四川稻城地区2019年5~8月雨滴谱资料,研究不同雨强和不同降水的雨滴谱特征,并提出反射率因子Z、质量加权平均直径Dm粒、粒子总数浓度NT、含水量W与雨强R之间的关系,以及Gamma谱形状参数μ和斜率参数Λ之间的关系,并比较了该地区雨滴谱与我国其他地区的差异。结果表明:随着R增大,雨滴谱数浓度、粒径和谱宽也逐渐增大,雨滴谱逐渐变宽、变平坦;对流云雨滴谱明显比层状云宽、数浓度更高,谱型分别呈略微的上凸和下凹;W-R和Z-R幂函数关系最密切,其次为Dm
以苯并[1,2-b:4,5-b′]二噻吩-4,8-二酮、4-溴-4′,4′-二甲氧基三苯胺等为原料,通过Miyaura硼化反应、Stille偶联反应及Suzuki偶联反应设计合成了基于三苯胺共轭侧链苯并二噻吩交替环戊二烯宽带隙聚合物供体材料PBF-EH.通过核磁共振氢谱仪解析各中间产物及目标产物的分子结构,通过紫外-可见吸收光谱表征了聚合物的光物理特性,其最大吸收边缘位于550 nm处,对应光学带隙为2.25 eV.用循环伏安法测定了聚合物分子的能级分布,经表征,聚合物的HOMO能级为-5.07 eV,L
采用一步水热法合成了BiPO4-BiOIO3复合物,并进行了FT-IR、XRD、SEM、XPS、UV-DRS等表征。以不同类型的有机染料罗丹明B(RhB)、甲基橙(MO)和亚甲基蓝(MB)为污染模型,考察了BiPO4-BiOIO3的光催化降解性能。在模拟太阳光照射下,染料的浓度和用量分别为10 mg·L-1、50 mL,催化剂用量为50 mg,照射40 min时,MB被完全降解,照射50 min时
借助符号计算软件Maple证明了新的(3+1)维Boussinesq方程具有相容正切可积性,通过选取该方程的相容性条件方程的不同形式的解,得到了新的(3+1)维Boussinesq方程的孤子与其他波的相互作用解,如简单孤子解、孤子与椭圆余弦波作用解和共振孤子解,并给出了孤子与椭圆余弦波作用解和共振孤子解所对应的图形。
研究农村居民点的分布及影响因素可以实现土地节约集约利用,为城镇化建设提供依据,并促进乡村振兴战略的顺利实施。运用平均最近邻指数、核密度分析结合景观指数法分析阆中市农村居民点的空间分布特征及演变规律,并研究高程和坡度因素对农村居民点分布的影响。结果表明:(1)在快速城镇化背景下,阆中市农村居民点规模扩张明显,集约用地程度较低,斑块空间分布聚集特征进一步加强,居民点斑块形态趋于复杂,斑块间差异显著,破碎度高,存在较大的整治优化空间;(2)阆中市农村居民点近十年整体空间格局变化不大,只是局部集中趋势进一步增强,
针对全卷积神经网络在医学图像分割中信息丢失、分割精度低等问题,提出了一种基于改进U-Net模型的脑肿瘤分割方法。首先使用深度残差模块替换U-Net结构中原有的卷积块,能够提取更多特征信息并防止网络退化;其次在U-Net的每个跳跃连接之间加入注意力机制,把注意力集中到对分割有用的特征,抑制冗余特征;最后采用改进的混合损失函数以缓解类不平衡的问题。使用BraTS提供的脑肿瘤MR图像数据集对改进模型进行
针对四川省陶瓷行业大气污染物排放所造成的环境问题,以亚氯酸钠为氧化吸收剂,进行模拟烟气的湿法脱硝和脱硫脱硝实验.在脱硝实验中考察了pH、NaClO 2质量浓度、NO质量浓度、
黑色旅游体验价值与游客重游意愿的关系研究对当前处于“降温”调整期的汶川黑色旅游地的发展振兴具有重要意义。以汶川特别旅游区和北川羌城旅游区2家5A级黑色旅游景区的551位游客为研究对象,通过主成分分析,提炼出6个黑色旅游体验价值因子;然后通过Logistic回归模型对体验价值与游客重游意愿之间的影响关系进行测量。结果发现:6个维度的黑色旅游体验价值均对游客重游意愿存在显著影响,但方向上存在差异,效用价值、服务价值、情感价值和感知价格对游客的重游意愿有着正向影响,重游概率随着这4个价值的提高而增大;景观价值和