论文部分内容阅读
文本分类是数据挖掘、机器学习中的一项基本技术。文本分类中通常要把文本表示成多维特征构成的向量。原始的特征空间维数通常很高,不仅会导致分类的效率低下,而且由于噪音特征的存在也使得分类效果难以令人满意。因此,文本分类中一个非常重要的工作是降低特征空间的维数。目前实际应用中大多通过特征选择的方法来实现特征降维。但是已有的绝大数特征选择方法都存在一些不足。最主要的不足在于,现有方法大都通过已标注语料上的实验结果评价其性能,这使得面对不同的领域、不同的真实语料、不同的应用目标时一些实验中的结论并不成立。因此,如何从理论或者形式化的角度评价和选择特征选择方法是一个具有挑战性的难题,本文在这方面进行了尝试。
本文利用形式化的方法研究特征选择,分别提出了三个特征选择框架CDFS、DBFS及SCDBFS,并推导定义了有效特征选择方法应该满足的八个基本约束。CDFS和DBFS框架验证了类间分布差异公式中权重函数以及比较对象对分类结果的影响,为非平衡分类问题的特征选择提出了一种解决方法,同时为设计自适应的特征选择方法奠定了基础。经典的特征选择方法MI、CHI、ECE、IG、OR和OCFS等都可以被纳入DBFS框架。另外,DBFS可以用于合理评价特征选择方法的性质、性能。基于DBFS框架我们实现了几个具体的特征选择方法,实验结果表明了它们的有效性。SCDBFS框架展示了如何自适应地设计特征选择方法,在此框架下,我们提出一种具体的实现方法并应用在视频检索领域,实验结果表明该方法优于已有的性能较好的特征选择方法。特征选择的约束研究中提出的基本约束可以评估特征选择方法的性能。研究特征选择方法不满足或条件满足的约束有利于找到改进该方法的策略。基于多个公开语料的实验结果表明,本文提出的基于约束的分析方法具有很好的效果。