论文部分内容阅读
特征降维一直是文本分类的重要研究内容,针对现有特征选择方法中普遍存在误删除强区分类别能力特征而保留弱区分类别能力特征的现象,提出了一种有效的特征降维策略,该方法首先对特征进行了定义和量化,通过建立单源特征保留集,删除所有类中的公共特征,再对多源特征权值进行调整,从而迭到特征削减和提高分类性能的目的。在Reuters-21578,NewsGmup语料集上进行的实验对比中表明,新的降维策略是有效可行的。