论文部分内容阅读
随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。目前对数据挖掘技术的研究越来越多,其应用范围涉及银行、电信、保险、交通等诸多领域。分类和预测是数据挖掘领域中两种重要的数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。 在当今经济社会中正确的预测具有重要的作用,它可以帮助一个企业做出正确决定从而改善效益。在本文中作者主要讨论数据挖掘技术在煤炭价格预测中的应用,这里的煤炭价格主要是指发电厂购买煤炭的价格。我国是主要依靠火力发电的国家,主要使用的能源就是煤炭。近几年,由于电煤短缺,煤质变化很大,严重影响着火电厂的经济效益,直接影响电厂的供电煤耗。如果能对煤炭信息进行科学管理并适当预测,就可以使发电厂的资金得到合理配置,从容应对市场变化,国民电力能源供应也会得到充分保证。 本文依托企业管理信息系统数据库,通过数据挖掘的方法对煤炭入厂数据进行分析,利用机器学习方法对煤炭价格进行预测,从而达到对入厂煤的质价进行分析的目的。本文的主要工作包括以下几个方面: (1)首先介绍了数据挖掘的概念以及数据挖掘的支撑技术,如决策树、人工神经网络和粗糙集等方法,接着介绍了数据预测的基本知识,分析了煤炭价格预测的特点,研究了分类预测中的覆盖算法和SVM算法。 (2)利用SVM与覆盖算法对UCI公用数据集进行分类实验,实验表明核覆盖算法在高样本数的分类中具有相当高的分类准确率。 (3)本文将SVM与覆盖算法应用到煤炭价格的预测,在对入厂煤价格的预测的基础上,进一步将煤价范围细分,达到对即将入厂煤质价分析的目的,电厂可据此对即将入厂煤进行质价评估,预算企业盈亏。分类实验分为两步进行,进一步细分了煤价范围,同时也在很大程度上降低了拒识率。 (4)结合实验分析了核覆盖算法相对于其他算法的优越性。将SVM算法和覆盖算法的实验结果进行了比较,两者都具有较高的准确率,SVM对于小样本的分类准确率略优于核覆盖算法,而对于高样本数的预测准确率稍低于核覆盖算法;实验表明在进行煤炭价格预测时,核覆盖算法准确率要高于领域覆盖算法,所产生的分类器的复杂性比领域覆盖算法要低,在对高样本数的预测中有相当高的准确率,因此最适合用于煤炭价格预测。 本文将数据挖掘技术应用于煤炭价格预测方面,发现这种预测具有一定的前景。对煤炭价格的科学合理的预测,可以为企业管理者提供可靠的决策依据。但是由于本文只是这种预测的起步工作,所以还有许多工作要做。张铃教授提出的覆盖算法,由于其本身的覆盖机制决定其覆盖率是相当可观的,而且经过各种改进正在逐步发展完善。怎样才能把其应用于现实的生活中,怎样在细分类和样本分布相对比较稀疏的情况下,提高预测的正确率这是我们今后的研究工作感兴趣的地方。