基于粗糙集的贝叶斯网络在数据挖掘中的研究与应用

来源 :安庆师范学院 安庆师范大学 | 被引量 : 0次 | 上传用户:hyj_jsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是数据库、机器学习以及统计理论相结合的产物,是从大量的、模糊的、有噪声的、不完全的、随机的数据中提取具有潜在价值信息的过程。粗糙集理论是上个世纪80年代波兰科学家提出的刻画不完整性、不确定性的数学工具。近年来对该理论的研究也更加深入,在人工智能、模式识别、知识发现、故障发现与检测等领域得到了成功的应用。  本文在前人经验的基础上,针对数据挖掘中经常出现的问题,从理论和应用两个方面对数据挖掘的应用技术进行了研究。数据挖掘中,直接针对原始数据进行数据挖掘效果不好,尤其是在大数据集的情况下。因此,首先对原始数据进行预先处理、变形,再进行数据挖掘就成为了数据挖掘的行之有效的方法。本文的研究内容如下:  1.简单介绍了数据挖掘的概念、背景、主要方法以及研究热点以及粗糙集理论的发展现状。  2.数据挖掘中,如果直接在海量的数据上进行挖掘往往会因为数目众多,规则过长,降低了决策分析的有效性。为了解决这一问题,本文利用粗糙集理论,提出了利用粗糙集理论选择量度,利用该量度提高分类的正确性和数据库的纯度,进而利用该量度对数据表格进行分析的方法。本文分析了数据库分解信息的性质,利用粗糙集首先对数据属性集进行约简,降低计算的复杂程度还有计算时间,在提高运算速度的同时,也不会造成信息量的损失。  3.属性数据分析是一种重要的统计方法。通过计算属性数据的相关统计量,考虑离群点的影响,提出了一种基于训练集中关于属性类别标准差的分类计算方法。首先对训练数据进行处理,将其映射为相对应的数值,计算不同类别不同属性的期望,方差、标准差;然后以属性类别计算的统计量为参考指标,当新样本数据加入训练集时,以新样本属性类别值作为坐标,求出其到各类别的欧式距离,距离最短的类别即为该样本数据所属类别。对比三种方法,不难发现基于属性数据标准差分类方法的稳定性和准确性,该算法对离群点样本数据预测有一定的优势。  4.朴素贝叶斯方法是传统数据挖掘的基本方法,本文通过引入粗糙集理论,以及“网络”的概念,优化传统的朴素贝叶斯方法。该方法首先应用粗糙集对数据进行预处理,消除冗余的数据,再通过贝叶斯网络的知识对数据进行挖掘。解决了朴素贝叶斯方法,先验概率难以获得以及要求各个特征属性之间条件独立的限制,具有很好的应用前景。  5.由于发电机结构以及振动的复杂性,造成了机组故障的多样性,随机性,同时存在着故障信息的不完整等特点。为了验证数据表分析的有效性,本文以发电机组为例子,利用粗糙集理论,首先对属性进行分类,建立模型。再通过贝叶斯网络的方法对数据进行处理,简化了处理过程,增加了结果的准确性,该方法在医疗诊断,统计决策,故障分析等多个领域都有很好的应用前景。
其他文献
花生是主要的油料和经济作物,由于其重要的经济价值,因此深入研究花生基因组结构进化与演变,具有重要的科研价值和经济意义。花生两个二倍体祖先野生种(A.duranensis和A.ipaensis)的基因测序工作完成,为花生重复基因间基因置换研究提供了基因组数据材料。课题研究以重要豆科模式植物苜蓿为外类群,对花生的两个祖先物种进行了系统的全基因组比较分析,基于同源染色体片段的基因同源共线性,统计推断了花
核废料污染问题是环境保护领域的重要课题,对经济和社会的发展有着深远的影响.建立核废料污染的数学模型,寻求其在某种意义下的近似解及建立相应的数值分析理论,通过计算机数
爱因斯坦曾说过:“我认为对于一切情况,只有‘热爱’才是最好的老师。”在任何课程教学中,教师都需要关注学生的兴趣爱好,由学生实际出发,优选教学手段与策略,以唤起学生学习
在任何反馈系统中,时滞总是存在,只是很小,而常被忽略.因此研究反馈闭环系统中的小时滞对控制系统的敏感性是极其重要的,并已引起广泛关注.无限维线性系统的指数稳定性对小时
该文针对非光滑方程组求解问题,构造了一类近似Newton法,并在半光滑条件下证明了该类算法的局部超线性收敛性.对一类特殊的半光滑方程组,构造了非光滑Newton-SOR迭代法,并证
该文首先考虑有阻尼和周期外力驱动的高维离散非线性Schrodinger(DNLS)方程:(公式略)讨论它的离散呼吸子的存在性.我们给出定义在R×l空间上的映射的零解延拓定理:应用稳函数
积分不等式和离散不等式在研究微分方程与有限差分方程理论过程中具有非常重要的作用.近年来,基于某些方面的应用,许多学者给出了一些新的不等式.该文推广了几类积分不等式和