论文部分内容阅读
特征选择技术的快速发展使学习模型能够更快速、更准确的从高维数据中提取具有重要性和相关性的特征,已经广泛应用于机器学习、图像处理、文本分类和模式识别等多个重要领域。K近邻(K-nearest neighbors)算法是一种无参数的简单算法,具有对异常值不敏感的优势。近年来,它也被用于特征选择方法的研究中。然而,目前的研究工作仍存在以下问题:首先,已有结合K近邻的模型大多数在对测试样本的类别进行判定时,仅依据样本间距离的远近程度不同来决定每个近邻样本对类别的贡献,在计算样本间距离时,忽略了每个特征的重要性的不同;其次,许多处理动态特征的真实应用,不能事先获取数据集的全部信息,而且对于不同的数据集,难以固定一个统一且是最优的参数,因此,传统的结合K近邻算法的特征选择方法无法直接用于处理动态特征。
在本文中,首先针对数据集中不同特征携带的用于判定目标类别的信息不同的特点,提出了一个基于加权K近邻和遗传算法的特征选择方法(简称为WKNNGAFS),该方法使用特征权重向量,第i个分量的值对应于第i个特征对分类的贡献度,在计算样本类别时既考虑了每个特征的重要性,又考虑了与近邻样本的距离,并用遗传算法从全局角度搜索最优特征权重向量。为了证明提出方法的性能,将该方法与5种基于信息论的方法和4种基于Wrapper的方法,在13个数据集上,其中6个高维微阵列数据集,使用5个分类器进行了比较,实验结果表明该方法具有较好的分类性能。
其次,针对传统结合K近邻算法的特征选择方法无法直接用于处理动态特征的问题,本文提出了一种基于邻域粗糙集的在线流特征选择方法(简称为OFS-Gapknn),该方法不需要事先获取数据集的全部信息,并且能根据不同的数据集自动计算参数,首先结合K近邻邻域和Gap邻域的优势,定义了一个新的邻域粗糙集关系,然后,设计了一种特征约简算法来决定是保留还是放弃新的特征,并选择具有高相关性和低冗余度的特征。为了验证该特征选择方法的性能,将该方法与4种传统特征选择方法和3种在线流特征选择方法,在11个数据集上使用5个分类器进行了比较。实验结果充分证明了该方法具有较好的性能。
在本文中,首先针对数据集中不同特征携带的用于判定目标类别的信息不同的特点,提出了一个基于加权K近邻和遗传算法的特征选择方法(简称为WKNNGAFS),该方法使用特征权重向量,第i个分量的值对应于第i个特征对分类的贡献度,在计算样本类别时既考虑了每个特征的重要性,又考虑了与近邻样本的距离,并用遗传算法从全局角度搜索最优特征权重向量。为了证明提出方法的性能,将该方法与5种基于信息论的方法和4种基于Wrapper的方法,在13个数据集上,其中6个高维微阵列数据集,使用5个分类器进行了比较,实验结果表明该方法具有较好的分类性能。
其次,针对传统结合K近邻算法的特征选择方法无法直接用于处理动态特征的问题,本文提出了一种基于邻域粗糙集的在线流特征选择方法(简称为OFS-Gapknn),该方法不需要事先获取数据集的全部信息,并且能根据不同的数据集自动计算参数,首先结合K近邻邻域和Gap邻域的优势,定义了一个新的邻域粗糙集关系,然后,设计了一种特征约简算法来决定是保留还是放弃新的特征,并选择具有高相关性和低冗余度的特征。为了验证该特征选择方法的性能,将该方法与4种传统特征选择方法和3种在线流特征选择方法,在11个数据集上使用5个分类器进行了比较。实验结果充分证明了该方法具有较好的性能。