论文部分内容阅读
随着社会信息化的发展,人类获取或存储数据的方式变的更加廉价与便捷,生活中大规模不均衡数据集不断涌现,面对这些形色各异的大规模不均衡数据,如何快速、准确而全面地从中找出所需要的有用信息,已经成为当前信息技术与商业领域面临的一大挑战。数据挖掘(Data Mining)作为一项高级的数据分析处理技术,在医疗、保险、通讯、金融等行业都得到了广泛的应用。作为数据挖掘技术中的关键技术之一,分类在学术界一直广受关注,先后涌现出了诸多的分类算法,这些算法在某种程度上确实是有效的,然而随着数据形式的不断变化,其缺陷也日益凸显。从传统的静态数据集到当前的动态数据流,其规模不断增大,不均衡度也不断提高,这些新数据特性对于传统的数据分类算法而言,无疑都是一个巨大的挑战。如何设计出一个适用于数据新特性的有效分类模型,依然是当前研究者所致力解决的焦点问题。本文针对数据的大规模性与不均衡性特点对数据分类问题展开研究,提出了两种数据分类模型,具体内容如下:(1)针对大规模数据集,利用约简训练集思想设计出一种基于分层聚类重采样的大规模数据分类模型。该模型首先利用K-means聚类算法将数据集划分成不同的独立子集,然后对各个子集进行逐类聚类,找出类中心邻域内的样本点集,将其加入到最终训练集中,最后利用支持向量机(Support Vector Machine, SVM)对最终训练集进行训练建模。实验结果表明,该模型在大幅降低SVM学习代价的同时,能够很好的保证其分类精度,并加快训练速度。(2)针对数据集的类不均衡性,提出了一种基于卡方检验的尺度核支持向量机分类模型。该模型首先利用SVM获取一个近似超平面,得出各样本到该近似超平面的距离与数据集的一个初始划分,然后基于核变换修正类分布的思想,提出了一种结合保形变换与卡方检验的新核变换方法,采用该方法对类边界进行不断的修正,扩大类边界间的不对称空间,最后再次利用SVM建立起最终的分类模型。实验结果表明,该方法能够很好的补偿数据偏斜,具有较高的分类精度。