论文部分内容阅读
二十一世纪以来,随着信息资源的充分开发、计算机技术和数据挖掘技术的不断发展,大数据时代随之而来。现实中的数据集朝着大规模方向发展,并呈现指数型增长的趋势。这种增长不仅仅是数据量的增长,数据的呈现形式也越来越多样化,函数型数据(Functional Data,FD)正是一种常见的、信息量大的数据。由于函数型数据特征维数较高,所以在数据分析时需要进行特征选择,以提取相关信息和排除冗余信息,从而使数据分类问题更快更准确。函数型数据的特征选择正是从庞大的函数信息中选出那些相关性小、代表性强的少部分特征,以简化后期分类器的计算和提高泛化能力。互信息特征选择方法可以用量化的形式表示数据之间的关系,因此在特征选择中有广泛的应用。已有的互信息特征选择方法中也存在一些不足,例如传统特征选择方法在原始数据集上直接进行特征选择,搜索策略的不同会导致每次特征选择结果存在一定的差异,使特征选择的结果不稳定;特征选择过程是依次遍历特征的过程,因此存在学习算法的时间复杂度较高等问题。如果将这些方法直接用于函数型数据的特征选择,不仅会使上述问题更加突出,而且特征选择结果的分类精度也不甚理想。因此,本文针对上述问题开展关于函数型数据的特征选择方法研究,具体工作包括以下两个方面。(1)提出动态互信息(Dynamic Mutual Information,DMI)特征选择方法和动态条件互信息(Dynamic Conditional Mutual Information,DCMI)特征选择方法。这两种方法克服了特征选择不稳定的缺点,在动态选择特征的过程中将分类器的分类结果直接用于下一次迭代,通过设置相应的停止条件,可以在较少的迭代次数中获得分类效果较好的特征子集。(2)提出快速特征选择(Fast Feature Selection,FFS)方法。为了进一步简化计算和提高特征选择效率,本文结合主成分分析法(Principal Component Analysis,PCA)和最小凸包法进行函数型数据的特征选择,可快速地获得稳定的特征子集,克服了特征选择需花费大量时间的缺陷。此外,将FFS方法的结果作为其他方法的初始特征子集,可以保证特征之间的相关性得以充分考虑,因此本文将FFS方法与条件互信息(Conditional Mutual Information,CMI)方法进行了融合。将两种方法进行对比,并给出在不同时间代价和分类精度需求下的方法选择策略。本文针对目前函数型数据特征选择存在的问题,提出了基于动态互信息的特征选择和快速特征选择两种特征选择方法,在保证特征选择结果分类精度的同时,可提高特征选择过程的效率和特征选择结果的稳定性。取得的研究成果丰富了函数型数据的特征选择方法研究,并具有较好的应用价值。