论文部分内容阅读
κ-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对κ值也比较敏感。本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC)。该方法先采用误差平方和准则自适应地从κ个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类。实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对κ值不敏感。