面向大数据预测的多维度集成模型的研究及应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:q2316456q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据挖掘、机器学习在各个领域中的需求越来越大。一方面,为了挖掘海量数据中密度低而宝贵的信息,高泛化且准确率高的分类器必不可少,研究者们不断开发各式各样的机器学习方法,如今机器学习算法的数量不断增多,并在此基础上发展出了集成方法,另一方面,随着数据规模的不断增大,同一个问题也可以通过多个维度进行研究,且机器学习模型针对每个维度都可以被预测,针对这类问题,传统的机器学习算法和集成方法仅能在一个维度上得以较好的解决,但结合多维度信息统一进行预测,则存在一定的困难。为解决上述问题,本文试图构建一种面向大数据预测的多维度集成模型,以在传统机器学习模型和集成模型的基础上结合多维度进行探索,进一步提高预测的准确率和稳定性,并将该模型实际应用到生产生活中。为找到解决上述问题的方法,本文将采用理论结合实际的方式为出发点进行探索和研究。考虑到对足球比赛胜负符合多维度的预测要求,且判断足球比赛胜负的维度较多,且各个维度均可以单独对足球比赛胜负结果进行预测,本文将尝试结合如何解决足球比赛胜负的分类预测问题进行探索和研究的实际问题,来试图尝试找到构建面向大数据预测的多维度集成模型的通用解决方案。本文将首先通过数据爬取技术完成数据爬取的方式获取足球比赛的7个维度的数据集,并通过数据整理、分类目标的基本统计、缺失值和异常值处理、探索性数据分析、特征工程等方法对数据集进行数据处理,然后通过传统机器学习模型、集成模型对各维度进行单独的分类目标进行预测,并尝试通过多维度投票模型的预测和构建面向多维度的改良的Stacking集成模型来解决多维度预测问题展开研究。最终,通过尝试和验证,面向多维度的改良的Stacking集成模型对多维度的预测足球比赛胜负问题有较好的预测能力,在对分类目标的预测准确率和稳定性上较传统机器学习模型和集成模型有较大的提升。实验和测试结果表明了本文提出的面向多维度的改良的Stacking集成模型的有效性。
其他文献
次氯酸是生物体内一种重要的活性氧(ROS)物种,在人类免疫功能系统中扮演着重要的角色。本工作利用光诱导电子转移和肟基的异构化作用对荧光体铱金属配合物的淬灭作用,设计合成
本文考察了EPDM/iPP热塑性弹性体的微结构形态对应力松弛行为的影响。研究发现,调控粘度比可以促使弹性体在注塑成型过程中形成层状共连续结构,从而大幅度降低面向热膨胀系数
进入新世纪以来,为了帮助来自贫困家庭以及低收入家庭的员工继续接受教育及其子女的教育以帮助他们彻底摆脱贫困,新加坡政府提出了一系列的经济援助计划予以支持和帮助。
为研究干燥及饱水状态下不同层理角度板岩的抗拉强度的相关规律,采用微机控制电液伺服万能试验机对不同层理角度的板岩试件进行巴西劈裂试验,获得其破坏荷载、饱和含水率、抗
<正> 泥质含量及其分布形式对地层因素F与孔隙度φ的关系以及电阻率增大系数Ⅰ和含水饱和度Sw关系有重要影响。但是,由于岩心实验是宏观实验,实验过程中岩心的微观孔隙结构、
会议
通过采用分子结构设计的方法,对低回弹聚氨酯材料的配方和性能进行了研究,并考察了工艺参数对材料性能的影响。
<正>最近的(第23)太阳极小期地基观测到的银河宇宙线通量达到了太空时代以来的最高峰。我们知道行星际磁场强度和太阳风速度这段时间都很低,但日球层电流片倾角并不是最低的
会议
<正>1982年Rune Aaslid及其同事将能检测到颅内动脉血流速度的经颅多普勒超声仪(Transcranial Doppler,TCD)应用于临床,其无创、价廉、可靠并可床旁操作的特点使之迅速引起国
会议