数据挖掘技术在企业财务风险评估中的研究应用

被引量 : 0次 | 上传用户:stong_sz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,越来越多的决策将基于海量数据里的知识而做出,作为研究怎样从数据中发掘知识的数据挖掘这门学科将在各领域发挥越来越重要的作用。而在数据挖掘过程中,人们重视于挖掘算法的研究与改进而往往忽视了从整个数据挖掘流程来考虑提升模型的准确率,论文根据业内的数据挖掘流程标准模型CRISP-DM,从业务理解、数据理解、数据准备出发设计了数据预处理、特征值提取、参数优化、训练集修剪的一系列方法来提升数据质量,在考虑传统支持向量机中当测试样本位于超平面临边界点时判定可能错误的问题,引入其他算法对其进行了改进,从整个数据挖掘过程出发设计了一套“数据预处理标准化+遗传算法特征选取+训练集修剪+支持向量机分类器判别优化”数据挖掘系统。其主要工作如下:(1)针对数据集可能存在的缺失数据、冗余数据、不一致数据等情况,需要对数据进行预处理操作,为了提高数据预处理效率,论文设计了一套数据预处理流程,并使用统计语言R语言实现了这一系列功能。(2)在支持向量机模型中,探讨了核函数和参数的选择对模型的准确性的影响,并使用了网格搜索和K-折交叉验证方法对参数进行优化。针对现实数据存在的高维度特征可能影响支持向量机挖掘的准确性,使用遗传算法对特征集进行选取,能够有效去除冗余指标,提升了数据挖掘的准确率。(3)对支持向量机的判别方法进行了改进,引入加权K-最近邻域算法来对符合特定条件的测试样本进行重新判定。通过对支持向量机的超平面研究,设计了修剪训练集的方法,并用修剪好的训练集来配合加权K-最近邻域算法对可能错分的测试样本进行判别,使用此改进的支持向量机算法后可以更加准确判定测试样本类别。(4)本文将设计的数据挖掘系统应用于实际的金融数据中,通过与原方法的对比,发现设计的数据挖掘系统能够加深对数据理解并能显著提升判别准确率。
其他文献
传统的语文教学,对学生的阅读能力培养重视不够,学生阅读能力弱,阅读兴趣低。新课程改革背景下,要更新教学观念,可以开展探究性阅读教学。即,在阅读教学中,深入研究教材,激发
<正>为全面客观地量化研究北京CBD区域综合发展,国家统计局朝阳调查队和北京市朝阳区统计局(简称:朝阳局队)近年来把CBD建设作为带动区域经济增长、优化产业结构布局、扩大对
采用草酸盐沉淀-前驱体热分解法制备不同成分的FexNi1-x(0<x<1)合金粉。采用XRD和SEM分别测试前驱体和合金粉的物相结构与形貌。结果表明:随着Ni含量增大,前驱体物相由FeC2O4·
目的:酮症起病胰岛自身抗体阴性糖尿病患者的大血管病变的临床特征及患病率尚未见文献报道。本研究目的是评估以酮症起病但胰岛自身抗体阴性的新诊断糖尿病患病者中大血管病变
针对泰蓄机组计算机监控系统同期并网时间较长的问题,分析影响同期并网效果的参数并提出了参数优化方法,重新设置的参数在现有监控系统中应用后取得了预期效果。
<正> 〈一〉“一件烂棉衲。有了它,可以御寒,不会冻死。如果你有机会发达,就立即把它扔掉;若长久拿着它,则永无发达!”这是李图暖师傅五、六十年代常说的一句话。李师傅平日
改革开放以来,随着城市化的发展,我国涌现了很多城市,新增城市中有90%以上属于三线以下城市的范畴。目前我国特大城市、大城市与三线以下城市的发展非常不协调。相对中小城市
在软件开发过程中,遵守编程规则不仅可以使代码简单一致,减少代码的缺陷,还可以提高代码的可读性,便于团队协作开发以及后期维护。因此,在软件开发的过程中,程序员都应该遵守
微博的兴起为舆论的发展提供了新的契机。微博舆论作为一种新的舆论形式,在公民自由表达和社会监督方面发挥着越来越重要的作用。但是,微博舆论作为一种文化现象,在其形成和
“给”字句是现代汉语中一个常见的句式,是对外汉语教学中的一个重点句式。本文从“给”字句的本体研究出发,依据北京语言大学HSK动态作文语料库、暨南大学留学生书面语语料库