【摘 要】
:
随着信息化的发展,大数据时代的来临,全球信息数据量的迅猛增长成为大数据产业发展的基础。市场调研机构IDC预计,未来全球数据总量将会一直维持在一个较高的水平,而我国作为
论文部分内容阅读
随着信息化的发展,大数据时代的来临,全球信息数据量的迅猛增长成为大数据产业发展的基础。市场调研机构IDC预计,未来全球数据总量将会一直维持在一个较高的水平,而我国作为信息化产业大国,数据信息来自于各行各业。其中气象部门每天都会收到大量的数据资料。如何从海量数据中提取有用的信息,并为我们创造价值,已经成为一个关键的问题。因此,如何利用气象数据通过数据挖掘技术建立高效的沙尘暴预测模型已成为各国学者们的研究重点。本文研究课题是分类算法在内蒙古气象数据挖掘中的应用研究,在近50年的中国地面气候资料日值数据集与中国强沙尘暴序列及其支撑数据集中筛选出内蒙古地区的气象数据。以此为研究对象。首先,为了解决海量数据的存储与批处理问题,搭建了Hadoop分布式平台与数据仓库平台hive。以HDFS为底层存储,通过编写HQL语句操作海量数据,从而在Hadoop平台完成数据预处理工作。然后根据属性值的缺失率与属性间的相关性,对预处理后的数据集进行降维并得到实验数据集。通过分析沙尘暴发生的频率,结合过采样与下采样方法对实验数据集做了一定的调整,也便于进行下一步分类模型的建立。本文针对沙尘暴数据集采用了目前被广泛使用的BP神经网络算法、SVM支持向量机算法、朴素贝叶斯算法建立分类预测模型。并对各个算法的预测准确率与可伸缩性进行分析和比较。最后,针对更适用于大规模数据集的朴素贝叶斯分类算法,结合属性重要度与Adaboost算法框架,从属性的独立性条件与分类决策两方面优化传统的朴素贝叶斯算法。提出了加权Adaboost-NBC分类方法。实验证明,改进后的算法相比于传统的单一分类器在性能上有一定的提高。
其他文献
宫颈癌不仅在女性生殖器官肿瘤中占首位,而且是女性各种恶性肿瘤中最常见的。通过早期的宫颈筛查工作,可以有效地降低女性患宫颈癌的风险,同时可以有针对性的对早期的宫颈病
在航空航天领域遥测系统承担着监测、传输和处理运载器运行状态和数据的职责,遥测数据为地面工作者提供运载器运行工况监测、安全评估的数据支撑,是保证运载器安全性、可靠性
兴隆台潜山带经历了多年勘探后,仍存在许多尚需深入探讨的关键问题,这些问题的解决必须建立在大量细致工作的基础上,结合近年来潜山油藏勘探开发比较成熟的新技术、新理论和
徐家围子火山岩勘探虽然取得了突破性进展,但由于每口井的火山岩岩石类型、储层发育特征存在明显差异,因此对其火山岩及储层的空间分布规律还难以掌握,急需对火山岩岩石类型
复杂系统工艺连续、结构关系庞杂,在层次结构、时间过程和功能组成方面表现出非线性和不确定性,则难以建立能精确描述复杂系统的机理解析模型。此外,由于复杂系统的运行过程呈现出显著的时间特性,其运行监测参数是一类典型的多元时间序列数据。以基于数据驱动的控制思想为指导,将复杂系统运行工况转换为数据挖掘的问题,通过控制优化算法对过程数据进行分析,实现复杂系统的工况识别、故障检测和健康诊断。本文以此为切入点,重
随着自由曲面造型技术的不断发展,B样条曲面在工程设计中得到广泛的应用,为了克服局部细分时对B样条张量积的限制,引入了T样条曲面。T样条曲面即可进行单层次的局部细分,减少
PGC(phase generated carrier,相位生成载波)调制解调作为一种重要的抗相位衰落方案,在干涉型光纤传感系统中得到了广泛应用。半导体激光器因为具有优良的特性,广泛的商用性,
随着科技信息技术的不断进步,三维模型数量呈指数级增长,在工业生产和日常生活中发挥着重要作用。如何对模型进行分类管理成为学术界、工业界普遍关注及研究的问题。而计算机
二维过渡金属硫族化物具有直接带隙、较强的光与物质相互作用、较高的载流子迁移率、较大的激子结合能等优点,在光电领域具有广泛的应用范围;同时它们还具有优异的机械性能,
潜在的金融风险可能会触发金融危机,其后果将对金融系统是灾难性的。纵观历史,发生了多次大型的金融危机冲击经济社会的事件,整个社会的各个角落都受到了严重影响。在全球化