【摘 要】
:
面向失衡数据集的分类问题是数据挖掘与机器学习领域中最具有挑战性的热点研究问题之一。近年来,随着计算机技术的发展和信息化的进步,越来越多的决策需要数据的支持。在大数据
论文部分内容阅读
面向失衡数据集的分类问题是数据挖掘与机器学习领域中最具有挑战性的热点研究问题之一。近年来,随着计算机技术的发展和信息化的进步,越来越多的决策需要数据的支持。在大数据时代的背景下,基于数据挖掘技术的分类问题成为企业快速决策、精准营销和提高综合竞争力的有力手段。失衡数据集是现实领域中存在的一种数据形态,真实客观的描述了某些事物本质的特征,即大量数据中只有很少的一部分是人们所格外关心的,而这部分数据却往往隐藏在大量的数据之中,难以被准确的分类。失衡数据集分类问题是数据挖掘领域中的一个难题,很多适用于传统分类问题的常用分类策略并不能很好的处理这一问题,因此引起了全世界各国专家学者的极大重视。本文首先介绍了失衡数据集的概念,介绍了各国专家和学者在失衡数据集分类问题领域的研究进展,阐述了失衡数据集分类困难的原因和目前普遍采用的解决方法以及分类器的性能评价指标。在充分考虑到失衡数据信息匮乏,数据淹没和采样后信息损失等因素的基础上,提出了基于聚类簇边界采样的失衡数据重采样策略。并结合基于支持向量机的集成学习方法,从数据端和算法端两方面提出了失衡数据集分类问题的解决策略。在实验构建与分析部分分别用四种典型形态的失衡数据集验证了该策略的有效性和稳定性。最后,结合集成学习方法将失衡数据集分类问题应用到了电信客户关系预测领域,使用真实的电信客户关系数据把具体的采样和分类策略集成到应用系统当中,取得了较好的分类效果。
其他文献
随着信息时代的到来,网络上的信息资讯呈现爆发式增长。其中,微博以其交互性、实时性、原创性等特点迅速成为信息资讯传播的重要平台。在社会热点事件发生和传播的过程中,微博等
当前处理图像信息常基于PC机完成,但PC机体积庞大,不方便携带,且使用过程中,配套的电力设施、环境及其他资源要求较多,因此,在野外实时处理图像数据具有一定的难度。因此,本
随着互联网技术的迅速发展,视频点播、远程会议、在线教育和网络游戏等实时多媒体服务运用的越来越广泛,人们对网络应用的服务质量(Quality ofServices,缩写QoS)要求也随之增高。
无线传感器网络(WSN,Wireless Sensor Networks)的提出,是基于环境监测和目标追踪等一系列的实际应用需求。作为一种新兴的对环境和目标进行感知与探测的技术手段,如何提高WS
目标跟踪是人机交互领域中的一个重要课题,但在实际跟踪中,目标容易受到遮挡等问题的影响,本文在分析总结已有工作的基础上,以提高遮挡等复杂环境下跟踪系统的性能为主要目标
随着互联网的迅猛发展,网络多媒体数据与日俱增,其中网络图像数据的增长尤为明显,仅仅在Facebook论坛上,每天就有超过3亿张图像被上传和分享。在淘宝网上,每天的在线商品数量大约
随着汽车行业的迅速发展,交通事故也在持续增长。为了解决这一问题,许多研究开始关注于驾驶行为的识别,以求理解事故发生的内在机制。同时,驾驶行为的研究,还能够为日益丰富的车载
1998年2月万维网联盟发布了一种名为XML(可扩展标记语言)的数据标准。由于它是标准通用标记语言SGML的子集,又是由W3C组织发布的,因此XML正逐渐成为信息世界数据交换的标准。在
直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将长期收益作为评价营销效果的指标。近年来,随着智能化的快速发展,越来越多的企业希望借助机器学习的力量进行营销决策,但是传统的监督学习和非监督学习方法在处理该问题时只能最大化单个决策的即时收益,而直复营销需要随时间的推移进行连续决策,因而这两类方法具有很大的局限性。强化学习是机器学