论文部分内容阅读
随着云计算、大数据等技术的不断兴起,人们获得的数据在复杂性和数据规模上都发生了巨大的变化,各领域对数据处理也不断提出了新的要求。特征提取作为数据分析和处理技术中的一种有效手段,被广泛应用于模式识别、数据挖掘等领域。基于特征提取问题国内外学者开展了大量的研究工作,但特征提取算法的适用性、鲁棒性、有效性等问题一直是研究的难点。本文针对线性特征提取和非线性特征提取两类方法开展了课题的相关研究工作,具体内容如下:(1)提出了基于PCA的样本加权特征提取算法针对传统的线性特征提取算法PCA在模型构建时并没有较好考虑不同样本特征对最终识别的有效性和重要性各不相同这一问题,提出了一种基于PCA的样本加权特征提取算法。本文依据加权的思想,对PCA重建误差和模型进行加权改进,构建了一个PCA样本加权重建误差和最小模型,并利用信息熵来调节样本的权值。新模型能够获得更小的重建误差和,求解模型得到了一种自适应权值的PCA算法,实验表明该方法具有更好的特征提取效果和重建误差和。(2)提出了融合局部信息的KPCA样本加权特征提取综合模型针对非线性模型KPCA不能较好提取样本数据中的局部特征信息,且对离群点样本的抗干扰能力较差这一问题,提出了一种融合局部信息的KPCA样本加权特征提取综合模型。本文利用LPP模型能较好保持数据局部特征的优势,从重建误差角度对KPCA加权模型引入LPP模型进行改进,得到了一种能更好提取数据局部信息的样本加权非线性特征提取综合模型。实验发现模型具有很好的特征提取效果,且对离群点样本具有很好的鲁棒性。(3)设计并实现了一个特征提取算法分析平台(FEAAP)依据论文的理论研究成果,本文设计并实现了一个特征提取算法分析平台。平台基于Matlab GUI框架,能够完成数据预处理、算法参数设置、实验结果比较等功能,从而为特征提取算法的研究提供一个方便的实验和分析环境。