【摘 要】
:
随着数字地球的快速发展,越来越多的传感器每时每刻都在产生着庞大的数据流,这些数据流中隐含了大量对生产生活有价值的信息,快速、有效地挖掘这些数据中的模式规律等信息是数据挖掘的主要目的。分类和回归是数据挖掘领域的两项主要任务,由于数据流本身的高速性、连续性、潜在无穷性、时间演化性等特点,传统的静态数据挖掘算法在处理数据流时很难达到满意的效果。构建一种在线、快速、准确的增量式数据流分类、回归算法是数据挖
论文部分内容阅读
随着数字地球的快速发展,越来越多的传感器每时每刻都在产生着庞大的数据流,这些数据流中隐含了大量对生产生活有价值的信息,快速、有效地挖掘这些数据中的模式规律等信息是数据挖掘的主要目的。分类和回归是数据挖掘领域的两项主要任务,由于数据流本身的高速性、连续性、潜在无穷性、时间演化性等特点,传统的静态数据挖掘算法在处理数据流时很难达到满意的效果。构建一种在线、快速、准确的增量式数据流分类、回归算法是数据挖掘领域的重要研究方向。本文提出一种基于代表性原型的数据流分类算法:算法选出有限数量的最有代表性的样本原型作为分类的训练样本集以代表数据流当前时刻最新的概念,并利用懒惰学习方法进行分类。算法通过错误率驱动的代表性学习方法在线更新代表性原型的权重以适应渐变概念漂移;通过保存误分类样本点,并利用局部误分类监控检测突变概念漂移并更新模型,进而摆脱噪声数据的影响;此外,算法通过快速最近邻压缩规则对代表性原型集合进行压缩,限制代表性原型的数量,保证了算法运行的高效性。本文提出一种基于代表性样本的数据流回归算法:算法选出有代表性的样本数据作为训练集数据,利用代表性样本构建基于递推最小二乘法的模型树,对待预测样本进行在线预测与模型更新。算法基于代表性样本的预测表现和其空间相对位置对样本代表性权重进行在线学习以适应渐变概念漂移;算法基于统计过程控制的思想对模型错误率进行监控进而检测突变概念漂移并更新模型。最后,本文将基于代表性样本的数据流回归算法应用到清流河流域中,对其月尺度径流进行动态模拟。模拟结果显示,纳什效率系数达到0.77,均方根误差RMSE为9.18。与传统机器学习方法和水文模型方法相比,本文提出方法的径流模拟效果更优,尤其是对径流峰值模拟更为准确。本文创新性地提出基于代表性原型的数据流分类算法和基于代表性样本的数据流回归算法,并将其应用到径流模拟中,且取得了较好的效果。本文学科交叉特色鲜明,研究结果表明,数据流挖掘可为径流动态模拟等变化环境下的资源环境问题提供新思路和新方法。
其他文献
<正>老一辈革命家搞调查研究的务实作风和科学方法是我们党的"传家宝",为我们做好新时代调研工作提供了宝贵经验。调查研究是谋事之基、成事之道。重视调查研究,是党的优良传
全国鼠疫布氏菌病防治基地自1987年5月29日经卫生部批准成立以来,已经走过了10年历程。10年来,在卫生部和吉林省卫生厅领导下,以吉林省为依托,发挥技术指导和服务全国的作用
目的分析2014年至2015年本院分离的311株肺炎克雷伯菌的分布及耐药性,为临床控制感染和合理用药提供依据。方法采用DADE BEHRING Micro Scan A/S-4微生物鉴定药敏系统对311株
制动性能是保证车辆安全可靠性的重要指标之一。制动器是制动过程中实现制动性能的主要执行机构,是提高车辆制动性能的重要途径。深入研究并找到提高车辆制动器性能的方法是
目的探讨无针输液系统对护理职业暴露的影响。方法 2014年11月~2015年4月我科患者均应用常规输液系统输液,将此时期作为对照组,2015年5月~2015年10月我科开设并为患者应用无
人工智能所创作的作品具有独创性,不仅符合作品构成的需求,也能兼具独创性和可复制性。因此,对人工智能创作物作品的属性争议的解决,关乎到权利的归属。人工智能无法被认定为
<正> 网络文学经过几年的迅猛发展,如今已是文学队伍中不可忽视的一员。面对这种新兴事物,人们反应不一:有人认为网络文学的出现为文学的发展提供了广阔的前景,有人认为网络
<正>复合型泄密行为或者违规案件是近年来案件查处工作中发现的一个新动向,其中相当数量的案件涉及通过互联网电子邮件传递、存储、处理国家秘密信息,具有较强的代表性,有必
本研究主要是探讨p63蛋白和p16蛋白在正常宫颈、慢性宫颈炎、CIN和宫颈癌中的表达状况及与发病机制、临床病理指标的关系,为p63蛋白和p16蛋白免疫细胞化学共同应用于液基细胞
对3类不同粉煤灰掺量下形成的聚乙烯醇(PVA)纤维水泥基材料,通过三点弯曲试验测试,研究了PVA纤维水泥基材料的弯曲性能;通过对PVA纤维水泥基材料断裂面处纤维表面、纤维嵌入