论文部分内容阅读
分类是数据挖掘和机器学习领域中的重要技术,已有分类算法大多通过重复计算数据集来提高分类准确率,然而这是以降低计算效率为代价的。为了在提高分类准确率的同时降低计算代价,通过分析集成学习方法较强的泛化能力,每个属性拥有的分类能力,以及最小二乘法直接求解线性模型的高效率,提出了基于线性回归和属性集成的分类算法(A Classification Algorithm Using Linear Regression and Attribute Ensemble,简称LRAE)。研究的具体工作如下: (1)通过分析决策树算法,发现了每个属性都有分类能力,但它在分类预测时并没有使用所有树节点。这使得部分属性的分类能力不能被充分利用,从而限制了它的分类准确率。针对这种情况,提出为每个属性建立分类模型并通过集成方法提高分类准确率。通过分析逻辑回归和支持向量机算法,发现它们都通过迭代计算来优化分类模型,从而提高分类准确率。这说明优化模型需要重复地计算数据集,而且它们的较高分类准确率都是以降低计算效率为代价的。为了提高训练模型的计算效率,提出了使用线性回归算法来训练分类模型。 (2)LRAE算法的基本原理如下:首先,根据属性的分类能力,提出了使用线性回归为每个属性构建属性线性分类器(Attribute Linear Classifier,简称ALC);然后,为了避免因ALC过多而导致的准确率下降,结合最小二乘法的经验误差最小化策略,使用经验损失值作为评估标准来选择ALC;最后,采用多数投票法结合ALC判定分类结果。 (3)Spark分布式运行平台不仅支持内存运行和容错机制,还支持迭代和交互计算,并且在计算效率方面表现非常出色。为了进一步提高LRAE分类的计算效率,结合Spark运行机制设计并实现了基于Spark的LRAE算法。 通过实验结果的比较说明了LRAE比逻辑回归、支持向量机和随机森林算法有相对较高的分类准确率和计算效率。