大数据下关联和分类的研究及其部分实现

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:fjiik
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分类算法是一种结合关联和分类技术的算法,由于扩展性高、分类精度准等特点,进而得到了学者广泛的研究。算法通过对包含类属性的关联规则集合挖掘,将得到的频繁规则集合作为分类模型,利用模型完成对待分类数据的分类预测。关联分类算法是对数据进行分析处理的一个重要方向。然而,关联分类算法也存在着一些问题。在执行关联分类算法时,可能会产生出大量冗余的规则数据集合。这些集合不仅会在内存空间上带来资源消耗,还会影响分类结果。另外,在不平衡数据下,存在着少数类集合由于支持度过低难以被发现的问题。针对存在的问题,本文作出的主要研究贡献如下:(1)提出了一种基于二次学习的关联分类算法。改进的算法在二次学习阶段结合朴素贝叶斯分类,有效地解决了关联分类CBA算法在执行阶段未产生出与待分类数据相关联的规则集合问题。一系列实验证明了改进的二次学习关联分类算法的有效性,在一定程度上提高了分类预测结果的准确率。(2)提出了一种加权的关联分类算法。CBA算法在处理不平衡数据时,可能存在少数类集合的支持度小于设定的最小支持度的现象,从而导致少数类数据集合难以被发现。加权的关联分类算法对每个数据项及类属性赋予权重,通过计算各项的加权支持度,确保少数类规则集合数据的产生。经实验验证,改进的加权关联分类算法可以完成少数类数据的发掘,提高算法对少数类集合的预测能力。(3)提出了一种优化关联分类算法的方法。由于算法在分类器构造阶段仅以置信度为框架,可能导致过拟合问题的产生。优化的方法以规则前件的长度、置信度、支持度为框架,优先选取最优规则集合完成分类器的构造。该方法不仅在内存空间上减少冗余规则的出现,还降低内存空间的占用,达到提升性能的作用。
其他文献
<正> 一九八二年我写过《流放岭南的元祜党人》一文,论述北宋绍圣、元符以及崇宁年间,先后被作为“元祐奸党”流放岭南的一些历史人物,他们历尽艰苦流离的情景,以及他们在贬
钢筋是现代建筑业必不可少的物料,需求量巨大,市场广阔。钢筋使用前大都需要进行定尺剪切,传统钢筋剪切机剪切精度低,定尺误差超标的钢筋被用于制造预制构件,会影响其内部受
利用农业废弃物作为生物质资源经过高温炭化及活化制备的生物质活性炭吸附剂,已广泛应用于水环境处理等领域。然而,生物质活性炭吸附剂不能从根本上降解污染物,因而在实际应
目的:分析不同发作频率偏头痛患者头痛特征及伴随症状的差异;采用静息态功能磁共振(rest-fMRI)方法对比不同频率无先兆偏头痛(MWoA)患者之间及偏头痛患者与健康对照组间大脑
目的:探讨奥扎格雷钠针联合阿托伐他汀钙治疗急性脑梗死的临床疗效。方法:回顾性分析我科收治的162例急性脑梗死患者,分为治疗组和对照组,两组均应用拜阿司匹林、苦碟子和吡
目的探讨镇静治疗对危重患者生命体征及并发症的影响,为预见性防护干预提供参考。方法统计分析587例入住ICU患者行插管镇静(125例)、短期镇静(194例)、长期镇静(268例)治疗对
<正>一、楔横轧技术简况1.楔横轧技术的简要历程20世纪50年代,由原捷克国发明了楔横轧轴类零件成形工艺并首先应用于汽车、五金工具等零件的生产,其技术与设备出口英国、美国
在新课改的背景下,教师专业发展越来越受到人们的重视。同伴互助是促进教师专业发展的有效策略。同伴互助有助于打破学校中教师之间的相互隔绝,形成一种合作型教师文化,使教师获得社会——情感支持,增强职业认同感,激发专业发展动机。然而,从以往研究来看,在小学里教师同伴互助活动往往流于形式,有效性不强,这个问题促使笔者深入小学进行实证研究,考察教师同伴互助的现状,寻找影响教师同伴互助有效开展的原因。笔者综合运
随着信息技术的发展,人们之间的沟通越发容易,合作也更加普遍,人际交往在社会生活中越来越重要。对大学生来说,良好的社交不仅能促进良好学习生活氛围的形成、缓解其心理压力,还能增加他们在社会中的竞争力。对于教育工作者来说,若能掌握学生的社交情况,则可以更全面的了解学生,从而改进其管理模式。因此,挖掘大学生社交关系对大学生的身心健康发展和高校学生管理等工作有着重要意义,但如何挖掘大学生社交关系仍是目前教育
从城市建设用地不断扩张的角度出发,研究城市居民出行距离分布变化对高密度轨道线网影响下的长距离穿越式公交线路竞争力的影响.分析城市居民出行距离的变化趋势,提出公交站