面向大数据的Lazy关联分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：fz1122

【摘要】

：

关联分类算法具有较高的分类准确度、较好的扩展性,受到广大研究人员和工程师的喜爱。关联分类算法可以分为显式关联分类和Lazy关联分类。当面对大数据的时候,显式关联分类没

【作者】

：

杨浩敏

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

聚合方法分布式投影 Spark框架 C-DMA算法 Lazy方法关联分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关联分类算法具有较高的分类准确度、较好的扩展性,受到广大研究人员和工程师的喜爱。关联分类算法可以分为显式关联分类和Lazy关联分类。当面对大数据的时候,显式关联分类没有办法避免生成庞大候选关联规则集的问题并容易出现Small Disjunction现象。Lazy关联分类使用待分类样本对训练集做投影操作,使得训练集大大减小,训练集与待分类样本关联度增大,很好地解决了显式关联分类存在的问题。然而面对大数据,在Lazy关联分类算法中,每个待分类样本都要对训练样本进行投影并构建一个分类器,对多个待分类样本进行分类时效率很低;分布式关联规则挖掘算法能够提升Lazy关联分类算法关联规则挖掘环节的效率,使其适用于大数据数据挖掘,但针对Lazy关联分类算法特有的投影操作,并未见分布式实现;面对大数据,必须使用大数据出库框架,Map Reduce框架不太适用迭代式计算,需要寻找新的框架来实现Lazy关联分类以适应大数据环境。因此,本文提出基于Spark的分布式Lazy关联分类算法-SDLAC算法,使用聚合方法来克服Lazy关联分类对多个待分类样本进行分类时效率低下的问题,使用分布式投影来解决C-DMA算法应用于Lazy关联分类时的不足,使用Spark框架克服Map Reduce框架的不足,以期使得Lazy关联分类适用于大数据场景并能够应用到实际当中去。分析与实验结果表明:SDLAC算法在准确率上高于CBA算法,与Lazy关联分类算法的准确率差不多;SDLAC算法的运行效率大大的高于CLAC算法(本文实验对比算法,代表现有研究最好水平,未有人实现)。所以,SDLAC算法是适合大数据环境的分类算法。本文的主要贡献是:①明确了Lazy关联分类算法面对大数据环境的不足之处。②提出SDLAC算法,将C-DMA算法应用到Lazy关联分类算法中去,并使用聚合方法、分布式投影和Spark框架进一步提升算法的运行效率,实现了面向大数据的Lazy关联分类算法。③实验表明:SDLAC算法在准确率上高于CBA算法,与Lazy关联分类算法的准确率差不多;SDLAC算法的运行效率大大的高于CLAC算法(本文实验对比算法,代表现有研究最好水平,未有人实现)。所以,SDLAC算法是适合大数据环境的分类算法。

其他文献

低速电动汽车锂电池SOC算法研究及应用

随着汽车工业的迅猛发展,带来的环境污染问题也越来越严重。电动汽车作为节能环保的代表受到广大人民的青睐。其中,低速电动汽车因经济性能好、充电方便等优势脱颖而出。本课

学位

低速电动汽车锂电池SOC估算电池管理系统扩展卡尔曼滤波

基于内容识别的智能导游系统研究

随着国民经济的持续增长，旅游行业正在迅猛发展，越来越多的人选择在闲暇的时候进行旅游。随着互联网技术的不断发展，互联网上的关于旅游的信息也越来越多。如何利用互联网上的信

学位

内容识别智能导游系统旅游行业互联网技术旅游信息搜索引擎图像识别文本分类

一种基于J2EE的新分布式多层架构——针对大数据量和复杂计算强度

随着多层应用的崛起,应用交付的变异越来越多,数据规模飞速增长,对计算机计算能力要求越来越高,新技术新思想不断出现,这些问题都对现存的架构提出了新的要求。针对这些问题,

学位

J2EE分布式多层架构Web ServiceMVC框架动态负载均衡

DeepWeb查询接口模式匹配与查询结果语义标注研究

整个Web的规模和资源正在不断扩大、深化，其中Web数据库资源难以通过传统搜索引擎索引到，所以被称之为“DeepWeb”，其蕴含的信息量更大、质量更高、结构化程度更高、主题更专一

学位

模式匹配语义标注启发式信息查询接口搜索引擎Web数据库

基于Chord的P2P模型在VoIP系统中的研究与设计

随着Internet的发展，客户端的不断增加，基于C/S模型的VoIP系统可扩展性差、单点失效的缺点日益显现出来。P2P因其各节点完全对等和网络自组织性等原因而具有高可伸缩性和高可靠

学位

P2P模型VoIP系统C/S模型Chord算法可伸缩性

跨平台OCR引擎的设计与实现

作为人工智能的重要方向,OCR技术发展至今已较为成熟,并在各个行业中取得了较为广泛的应用。OCR的应用领域已经逐渐从大型企业和政府机构扩展到了各类企业和大众的同常工作中

学位

跨平台系统OCR嵌入式移植

破碎刚体复原的曲面互补形状匹配算法研究

曲面匹配是通过对几何模型的分析、变换、特征提取等手段来实现对模型的识别、相似性的度量和拼合。这一技术在测量建模、碎片复原、医学图像配准等领域有着重要的作用。在计

学位

破碎刚体刚体复原曲面互补形状匹配匹配算法曲面匹配几何模型图像配准

基于模糊聚类和水平集的肝脏肿瘤分割研究

图像分割就是根据图像的底层相关特征,从图像中提取出感兴趣的目标。而图像分割中的医学图像分割领域,由于其具有现实意义和实用价值,临床需求大,受到了研究者广泛的关注。本

学位

肝脏肿瘤分割三维感兴趣区域模糊聚类水平集

基于经济模型的网格资源调度研究

网格是把空间位置上分散的资源集成起来的一种基础平台,这个平台为用户的请求选择合适的资源服务,实现广域范围内的资源共享。由于网格的跨管理域、动态、异构和信息的不确定

学位

经济模型网格资源资源调度资源服务资源管理网格模拟器调度算法

回声状态神经网络在机器人足球中的应用

目前，在对非线性系统的预测中，使用神经网络的方法已经取得了良好的效果和广泛的应用，特别是循环神经网络在预测中更具有优势，但是长期以来其学习方法却一直没有较大的提高。

学位

回声状态神经网络足球机器人运动控制路径规划非线性系统

面向大数据的Lazy关联分类算法研究

其他学术论文