【摘 要】
:
在科学、商业和政府等领域数据在猛增。这使得非常有必要研究自动和智能的工具和技术,能够从这些海量数据中分析、总结并提取知识。大多数的知识发现或数据挖掘工具和技术是基
论文部分内容阅读
在科学、商业和政府等领域数据在猛增。这使得非常有必要研究自动和智能的工具和技术,能够从这些海量数据中分析、总结并提取知识。大多数的知识发现或数据挖掘工具和技术是基于传统的统计、机器学习、模式识别或人工神经网络。受到噪声和高维度侵扰的巨型数据库给数据挖掘带来了挑战。由于在缺乏启发性的知识的情况下,遗传算法对于高维数据特征提取非常有效,所以遗传算法是克服挑战的重要选择。而统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基础上发展起来的新的模式识别方法。在解决有限样本、非线性和高维度问题中表现出许多特有的优势。在知识发现的过程中,数据挖掘通常包括三个主要步骤:数据的选择、清理、变换;对数据进行挖掘以提取规律;评估和解释所得到的结果。其中第一步是数据预处理,在数据挖掘的任何学习算法执行之前,进行这一步非常重要。数据预处理的关键是特征选择和提取。挖掘则只是整个知识发现过程中的一个步骤。数据挖掘的质量不仅取决于数据挖掘技术的有效性,同时也取决于数据预处理产生的数据的数量和质量。在从数据到知识的过程中,这些步骤通常被视为相互独立地进行。但事实上任何一个步骤的变化都会影响其他步骤,导致其他步骤不得不重新进行调整。在本文中,上述三个步骤通过一个目标有机地结合成一个整体。这个目标就是通过学习,使得挖掘出的规律具有最优的推广能力。具体做法是,首先采用遗传算法对数据进行特征选择和提取,产生新的特征空间;然后将之作为支持向量机的输入进行回归学习;进而输入测试数据,对学习的结果进行评估,考察其泛化能力。评估的结果又返回到第一步的数据预处理,作为遗传算法的优化方向。将这种方法应用于某预报模型,取得了良好的效果。
其他文献
国内外中压配电网中性点广泛采用小电流接地方式.这种方式在拥有其独特优点的同时因发生单相接地故障时故障电流微弱、电弧不稳定而难以检测和判断.该文基于故障的稳态和暂态
淡水资源的短缺和人们环保意识的逐步提高,使得污水处理的重要性日益突出。目前最常用的污水处理途径是活性污泥法。它是一种水体自净的人工强化方法,具有机理复杂、非线性、时
我国市级科研所正处于科研体制改革时期,在人力资源管理上具有“专业技术人员多,知识群体密集;多种分配模式并存,实际工资和档案工资分离;工作时间季节性强,绩效考核各有侧重;生产基地多,人员分散”等特点,为适应管理信息化、现代化的发展要求,迫切需要开发一个符合行业管理特点,能为人力资源管理活动提供信息集成和共享的人力资源管理与决策支持系统。 本系统本着适用性、开放性、兼容性、集成性和安全性的设计原
根据目前刚体和连接刚体的研究现状和特点,本论文对采用图像角特征对应元的刚体运动估计、连接刚体的结构和运动特点和属性、基于图像点特征对应元的连接刚体连接点确定和运
小波变换理论是二十世纪八十年代后期发展起来的应用数学分支,来源于对Fourier变换的改进,是一种全新的时、频分析方法,是信号的时间—尺度(时间—频率)分析方法,具有多分辨
纸或纸浆白度的提高意味着纸浆外观质量及其档次的提高,造纸工业中都要对纸或纸浆的白度进行测试,从而精确控制漂白化学药剂的添加量.现有的测量白度的仪器仪表也有很多种,但
随着计算机、网络和通信技术的飞速发展,管理信息系统得到广泛应用.它已经成为企业处理业务、实现管理、进行辅助决策的重要手段之一.该文分析了当今管理信息系统的现状,C/S
本文利用了实验室设备,开发了基于PC机的远程视频监控系统.系统采用带有云台的摄像头获取视频,由四路视频采集卡采集视频,然后通过PC机上相应软件实现对视频的压缩、传输、解
质量功能展开(Quality Function Deployment,QFD)技术是用于新产品开发的质量保证的一种方法,近年来受到了国内外学术界和企业界的研究与应用,将模糊集理论运用于QFD系统,已
近年来,目标跟踪技术在国内外得到了广泛而深入的研究和发展,并且在很多领域都具有广泛的应用前景。目前,目标跟踪还面临许多困难和挑战,包括目标形状变化、背景干扰、光照变化、