论文部分内容阅读
针对传统样例选择方法压缩大数据集时,存在计算复杂度较高、时间消耗较大的问题,文中提出基于非平稳割点的样例选择方法。依据在区间端点得到凸函数的极值这一基本性质,通过标记非平衡割点度量一个样例为端点的程度,然后选取端点程度较高的样例,从而避免样例之间距离的计算。该方法旨在不影响分类精度的前提下,达到压缩数据集、提高计算效率的目的。实验表明,文中方法对于类别不平衡度较高的数据集压缩效果明显,同时表现出较强的抗噪性。