论文部分内容阅读
针对近邻(kNN)方法不能很好地解决非平衡类问题,提出一种新的面向非平衡类问题的&近邻分类算法。与传统近邻方法不同,在学习阶段,该算法首先使用划分算法(如K-Means)将多数类数据集划分为多个簇,然后将每个簇与少数类数据集合并成一个新的训练集用于训练一个&近邻模型,即该算法构建了一个包含多个近邻模型的分类器库。在预测阶段,使用划分算法(如K-Means)从分类器库中选择一个模型用于预测样本类别。通过这种方法,提出的算法有效地保证了k近邻模型既能有效发现数据局部特征,又能充分考虑数据的非平