论文部分内容阅读
随着大数据时代的到来,越来越多的决策将基于海量数据里的知识而做出,作为研究怎样从数据中发掘知识的数据挖掘这门学科将在各领域发挥越来越重要的作用。而在数据挖掘过程中,人们重视于挖掘算法的研究与改进而往往忽视了从整个数据挖掘流程来考虑提升模型的准确率,论文根据业内的数据挖掘流程标准模型CRISP-DM,从业务理解、数据理解、数据准备出发设计了数据预处理、特征值提取、参数优化、训练集修剪的一系列方法来提升数据质量,在考虑传统支持向量机中当测试样本位于超平面临边界点时判定可能错误的问题,引入其他算法对其进行了改进,从整个数据挖掘过程出发设计了一套“数据预处理标准化+遗传算法特征选取+训练集修剪+支持向量机分类器判别优化”数据挖掘系统。其主要工作如下:(1)针对数据集可能存在的缺失数据、冗余数据、不一致数据等情况,需要对数据进行预处理操作,为了提高数据预处理效率,论文设计了一套数据预处理流程,并使用统计语言R语言实现了这一系列功能。(2)在支持向量机模型中,探讨了核函数和参数的选择对模型的准确性的影响,并使用了网格搜索和K-折交叉验证方法对参数进行优化。针对现实数据存在的高维度特征可能影响支持向量机挖掘的准确性,使用遗传算法对特征集进行选取,能够有效去除冗余指标,提升了数据挖掘的准确率。(3)对支持向量机的判别方法进行了改进,引入加权K-最近邻域算法来对符合特定条件的测试样本进行重新判定。通过对支持向量机的超平面研究,设计了修剪训练集的方法,并用修剪好的训练集来配合加权K-最近邻域算法对可能错分的测试样本进行判别,使用此改进的支持向量机算法后可以更加准确判定测试样本类别。(4)本文将设计的数据挖掘系统应用于实际的金融数据中,通过与原方法的对比,发现设计的数据挖掘系统能够加深对数据理解并能显著提升判别准确率。