论文部分内容阅读
数据挖掘技术是数据库、机器学习以及统计理论相结合的产物,是从大量的、模糊的、有噪声的、不完全的、随机的数据中提取具有潜在价值信息的过程。粗糙集理论是上个世纪80年代波兰科学家提出的刻画不完整性、不确定性的数学工具。近年来对该理论的研究也更加深入,在人工智能、模式识别、知识发现、故障发现与检测等领域得到了成功的应用。 本文在前人经验的基础上,针对数据挖掘中经常出现的问题,从理论和应用两个方面对数据挖掘的应用技术进行了研究。数据挖掘中,直接针对原始数据进行数据挖掘效果不好,尤其是在大数据集的情况下。因此,首先对原始数据进行预先处理、变形,再进行数据挖掘就成为了数据挖掘的行之有效的方法。本文的研究内容如下: 1.简单介绍了数据挖掘的概念、背景、主要方法以及研究热点以及粗糙集理论的发展现状。 2.数据挖掘中,如果直接在海量的数据上进行挖掘往往会因为数目众多,规则过长,降低了决策分析的有效性。为了解决这一问题,本文利用粗糙集理论,提出了利用粗糙集理论选择量度,利用该量度提高分类的正确性和数据库的纯度,进而利用该量度对数据表格进行分析的方法。本文分析了数据库分解信息的性质,利用粗糙集首先对数据属性集进行约简,降低计算的复杂程度还有计算时间,在提高运算速度的同时,也不会造成信息量的损失。 3.属性数据分析是一种重要的统计方法。通过计算属性数据的相关统计量,考虑离群点的影响,提出了一种基于训练集中关于属性类别标准差的分类计算方法。首先对训练数据进行处理,将其映射为相对应的数值,计算不同类别不同属性的期望,方差、标准差;然后以属性类别计算的统计量为参考指标,当新样本数据加入训练集时,以新样本属性类别值作为坐标,求出其到各类别的欧式距离,距离最短的类别即为该样本数据所属类别。对比三种方法,不难发现基于属性数据标准差分类方法的稳定性和准确性,该算法对离群点样本数据预测有一定的优势。 4.朴素贝叶斯方法是传统数据挖掘的基本方法,本文通过引入粗糙集理论,以及“网络”的概念,优化传统的朴素贝叶斯方法。该方法首先应用粗糙集对数据进行预处理,消除冗余的数据,再通过贝叶斯网络的知识对数据进行挖掘。解决了朴素贝叶斯方法,先验概率难以获得以及要求各个特征属性之间条件独立的限制,具有很好的应用前景。 5.由于发电机结构以及振动的复杂性,造成了机组故障的多样性,随机性,同时存在着故障信息的不完整等特点。为了验证数据表分析的有效性,本文以发电机组为例子,利用粗糙集理论,首先对属性进行分类,建立模型。再通过贝叶斯网络的方法对数据进行处理,简化了处理过程,增加了结果的准确性,该方法在医疗诊断,统计决策,故障分析等多个领域都有很好的应用前景。