论文部分内容阅读
数据挖掘是一门新兴的研究领域,涉及到机器学习,模式识别,统计学,数据库和人工智能等众多学科,目前已经受到了广泛的关注和重视.而数据挖掘方法也是多种多样的,该文以研究数据挖掘过程中数据预处理和模式发现算法和应用为目的,以经典数据集为背景开展了研究工作,主要包括以下五个方面的内容.1.该文应用了一种结合随机选取的遗传算法来解决离散化问题.用染色体的编码表示各个属性中分段的比例,每个染色体表示对一组样本数据的离散化.适应度函数采用离散化结果评估标准中的不一致性和简单性的复合函数.采用决策归纳树的C4.5算法评估的离散化结果的准确性.2.该文提出了基于模型预测的实例学习校正方法,分别通过多元线性回归、BP神经网络建立模型,采用K-NN进行预测样本的学习校正,在对标准数据的实验分析中,对大部分数据集新方法取得了更为精确的预测效果.3.该文应用了因子分析作为数据预处理中维简约,将输入变量先进行因子分析预处理,找到2到3个满足贡献率的公共因子作为模糊神经网络的输入变量,并且构造了一个四层的模糊神经网络,通过遗传算法离散化方法寻找该输入变量的模糊划分区间,得到的预测结果与BP网络和K最近邻方法及聚类部分线性回归相比较,精度更高,泛化能力更强.4.该文提出一种基于粗糙集理论的决策树构造改进方法.采用粗糙集理论知识粒度的概念来计算属性的协调度,将协调度作为选取测试属性的标准,采用后剪枝方法减少树的节点,简化其模型.5.该文改进了一种二进制概念聚类算法,在PAD距离的基础上,提出了GPAD距离用于计算样本之间的相似度,并采用系统聚类算法应用到实例中,与PAD距离比较,取得较好的效果.