论文部分内容阅读
目的介绍一种基于K近邻的过抽样算法在不平衡的医学数据集分类中的应用。方法首先利用K近邻法删除在分类中容易与少数类混淆的多数类样本;再对新生成的训练集利用SMOTE算法进行少数类样本的扩充,以有效提高少数类的分类性能。结果利用社区人群的慢性阻塞性肺疾病资料验证,基于K近邻的过抽样算法的分类性能比合成少数类过抽样算法及欠抽样方法要强。结论当医学资料出现不平衡特征时,传统分类器的分类效果不佳,基于K近邻的过抽样算法能够获得良好的分类性能,在医学模式识别领域中有较好的应用前景。