论文部分内容阅读
随着大数据时代的来临,数据挖掘、机器学习在各个领域中的需求越来越大。一方面,为了挖掘海量数据中密度低而宝贵的信息,高泛化且准确率高的分类器必不可少,研究者们不断开发各式各样的机器学习方法,如今机器学习算法的数量不断增多,并在此基础上发展出了集成方法,另一方面,随着数据规模的不断增大,同一个问题也可以通过多个维度进行研究,且机器学习模型针对每个维度都可以被预测,针对这类问题,传统的机器学习算法和集成方法仅能在一个维度上得以较好的解决,但结合多维度信息统一进行预测,则存在一定的困难。为解决上述问题,本文试图构建一种面向大数据预测的多维度集成模型,以在传统机器学习模型和集成模型的基础上结合多维度进行探索,进一步提高预测的准确率和稳定性,并将该模型实际应用到生产生活中。为找到解决上述问题的方法,本文将采用理论结合实际的方式为出发点进行探索和研究。考虑到对足球比赛胜负符合多维度的预测要求,且判断足球比赛胜负的维度较多,且各个维度均可以单独对足球比赛胜负结果进行预测,本文将尝试结合如何解决足球比赛胜负的分类预测问题进行探索和研究的实际问题,来试图尝试找到构建面向大数据预测的多维度集成模型的通用解决方案。本文将首先通过数据爬取技术完成数据爬取的方式获取足球比赛的7个维度的数据集,并通过数据整理、分类目标的基本统计、缺失值和异常值处理、探索性数据分析、特征工程等方法对数据集进行数据处理,然后通过传统机器学习模型、集成模型对各维度进行单独的分类目标进行预测,并尝试通过多维度投票模型的预测和构建面向多维度的改良的Stacking集成模型来解决多维度预测问题展开研究。最终,通过尝试和验证,面向多维度的改良的Stacking集成模型对多维度的预测足球比赛胜负问题有较好的预测能力,在对分类目标的预测准确率和稳定性上较传统机器学习模型和集成模型有较大的提升。实验和测试结果表明了本文提出的面向多维度的改良的Stacking集成模型的有效性。