基于Spark和集成学习的分类方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:fooguo3007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘和机器学习领域中的重要技术,已有分类算法大多通过重复计算数据集来提高分类准确率,然而这是以降低计算效率为代价的。为了在提高分类准确率的同时降低计算代价,通过分析集成学习方法较强的泛化能力,每个属性拥有的分类能力,以及最小二乘法直接求解线性模型的高效率,提出了基于线性回归和属性集成的分类算法(A Classification Algorithm Using Linear Regression and Attribute Ensemble,简称LRAE)。研究的具体工作如下:  (1)通过分析决策树算法,发现了每个属性都有分类能力,但它在分类预测时并没有使用所有树节点。这使得部分属性的分类能力不能被充分利用,从而限制了它的分类准确率。针对这种情况,提出为每个属性建立分类模型并通过集成方法提高分类准确率。通过分析逻辑回归和支持向量机算法,发现它们都通过迭代计算来优化分类模型,从而提高分类准确率。这说明优化模型需要重复地计算数据集,而且它们的较高分类准确率都是以降低计算效率为代价的。为了提高训练模型的计算效率,提出了使用线性回归算法来训练分类模型。  (2)LRAE算法的基本原理如下:首先,根据属性的分类能力,提出了使用线性回归为每个属性构建属性线性分类器(Attribute Linear Classifier,简称ALC);然后,为了避免因ALC过多而导致的准确率下降,结合最小二乘法的经验误差最小化策略,使用经验损失值作为评估标准来选择ALC;最后,采用多数投票法结合ALC判定分类结果。  (3)Spark分布式运行平台不仅支持内存运行和容错机制,还支持迭代和交互计算,并且在计算效率方面表现非常出色。为了进一步提高LRAE分类的计算效率,结合Spark运行机制设计并实现了基于Spark的LRAE算法。  通过实验结果的比较说明了LRAE比逻辑回归、支持向量机和随机森林算法有相对较高的分类准确率和计算效率。
其他文献
随着科技水平的不断进步,一项新的研究领域——信息物理系统,越来越受到专家和学者的关注,科学家预测它的出现将会改变了人与自然交互的方式,从而帮助人类更好的认识了解物理
专利文档中包含产品的组成结构、设计原理、组件功能等相关内容,蕴含了丰富的创新性技术信息,是领域内创新性和实用性的解决方案,被看作是产品创新设计的重要知识来源。功能的创新是产品创新的基础,从专利中获取其功能信息成为研究的热点。然而由于自然语言对知识表述的随意性,给这项研究带来一定的难度和挑战性。本文经过大量的专利文献的阅读,分析了专利文档的组成结构和知识分布,确定了专利摘要文本为功能信息抽取对象,通
随着Web2.0时代的到来,出现了各式各样的社交网络应用来满足用户日益丰富的社交活动需求,信息借助这些应用平台高速流动,加之各种智能移动终端技术的不断进步,越来越多的用户在推
如今机器人在静态环境下的路径规划问题已经有了很成熟的研究成果,并且可以高效地解决任何静态环境下的机器人寻路问题。然而,动态环境下机器人的路径规划问题仍然是一个具有挑
三维重建技术是目前视觉研究的热点之一,它是对三维物体或者场景图像描述的一个逆过程。即从若干幅的图像序列中计算出物体场景的三维深度信息,然后再通过二维的图像恢复出来三
气象数据的可视化分析可以帮助气象科学家研究气候变化,预测天气变化。对于普通用户,直观的天气信息可视化可以帮助他们了解天气状况,做出有效的决策。现有软件气象可视化软
随着互联网技术、传感器技术、嵌入式技术、通信技术的快速发展,物联网越来越受到工业界和学术界的关注,数字家居、智慧楼宇、精准农业、智能交通、数字医疗等项目也被广泛提
油脂是人体不可或缺的营养要素,其色泽是油脂质检中比较重要的一项指标,油脂色泽的检测对提高油脂质量起着举足轻重的作用。近年来,对油脂颜色测量的方法有很多,包括目视法、分光光度法、光电积分法等,但是基于自动化和检测成本来考虑,设计一款能够实现自动化、测量准确、价格低廉的油脂颜色测量仪是非常有必要的。本课题首先针对罗维朋目视比色计操作繁琐、劳动强度大,存在人为误差,进口比色计价格昂贵等问题,提出课题需要
在线购物已经成为日常生活中一种基本的消费模式。在此环境下,网络评论由于包含已有用户对现有商品所持的观点,因而能够为其他潜在的客户在确定购买决策时提供重要的参考价值。
现存的分布式网络安全系统中,使用入侵检测系统与防火墙联动机制能有效阻止黑客攻击,但是随着网络病毒攻击和黑客攻击方式的“集成化”,现存的网络安全系统暴露出严重的安全问题