数据挖掘方法若干问题研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:jaz23cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门新兴的研究领域,涉及到机器学习,模式识别,统计学,数据库和人工智能等众多学科,目前已经受到了广泛的关注和重视.而数据挖掘方法也是多种多样的,该文以研究数据挖掘过程中数据预处理和模式发现算法和应用为目的,以经典数据集为背景开展了研究工作,主要包括以下五个方面的内容.1.该文应用了一种结合随机选取的遗传算法来解决离散化问题.用染色体的编码表示各个属性中分段的比例,每个染色体表示对一组样本数据的离散化.适应度函数采用离散化结果评估标准中的不一致性和简单性的复合函数.采用决策归纳树的C4.5算法评估的离散化结果的准确性.2.该文提出了基于模型预测的实例学习校正方法,分别通过多元线性回归、BP神经网络建立模型,采用K-NN进行预测样本的学习校正,在对标准数据的实验分析中,对大部分数据集新方法取得了更为精确的预测效果.3.该文应用了因子分析作为数据预处理中维简约,将输入变量先进行因子分析预处理,找到2到3个满足贡献率的公共因子作为模糊神经网络的输入变量,并且构造了一个四层的模糊神经网络,通过遗传算法离散化方法寻找该输入变量的模糊划分区间,得到的预测结果与BP网络和K最近邻方法及聚类部分线性回归相比较,精度更高,泛化能力更强.4.该文提出一种基于粗糙集理论的决策树构造改进方法.采用粗糙集理论知识粒度的概念来计算属性的协调度,将协调度作为选取测试属性的标准,采用后剪枝方法减少树的节点,简化其模型.5.该文改进了一种二进制概念聚类算法,在PAD距离的基础上,提出了GPAD距离用于计算样本之间的相似度,并采用系统聚类算法应用到实例中,与PAD距离比较,取得较好的效果.
其他文献
该文针对典型小型机械加工企业ERP系统的要求,研究了基于关键工序的启发式算法、遗传算法和基于启发式规则的遗传混合算法在车间作业调度中的应用.从目标函数出发,确定了三种
随着现代工业及科学技术的迅速发展,故障诊断已经越来越受到重视.神经网络作为故障诊断的一种方法得到广泛的应用,其中以BP网络最为突出.该文正是基于BP网络和故障诊断的基础
预测控制是一种重要的控制策略,但作为一种建立在被控对象特征信息基础之上的控制方法,预测控制对于模型精度有着较高的要求。在预测模型偏差较小的情况下预测控制可以得到满
该文首先介绍了软测量技术及模糊神经网络的发展状况,并在研究模糊逻辑、神经网络及模糊神经网络建模方法的基础上,研究了基于神经网络软测量技术在气化炉炉温测量中的应用.
聚合反应过程控制对于提高聚合生产物质量具有重要的理论意义和实用价值,是当前研究的热点,并已逐步发展成为跨领域、跨专业的综合学科.该文以非纤聚酯生产中关键环节--酯化
该文采用观测器技术和自适应技术对基于含不确定环节解析模型的过程进行故障诊断.首先,该文对非线性不确定过程模型的传感器和执行器故障诊断策略进行了研究,得到了相应鲁棒
水污染总量监测有三个要素:一是传感技术,二是监测网络的建立,三是污染程度的量化.该文研究目的是针对目前中国城市环境保护监控系统监测设备安装地点分散的情况,解决分布在
本课题研究了具有非线性、大惯性的大型电加热炉的温度控制,提出了采用内模控制算法,作为控制策略的计算机采样控制方案,为了实现将对象的逆模型作为调节器,利用BP型神经网络的非
目前的入侵检测系统还远远不够完美,存在的主要问题是无意义报警过多、误报过高、对入侵事件的理解困难等.针对这些问题,该文在总结前人工作的基础上,提出一个多层次的入侵事
学位