基于粗糙集理论的数据挖掘方法及其在电力营销决策支持系统中的应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:yeximajor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是由Paw1ak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它无需提供相关数据集合以外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,即知识。数据挖掘是20世纪90年代中期兴起的一项新技术,是知识发现过程中的关键步骤,它是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。粗集理论由于其本身具有的一些特点,比如它是数据驱动的方法、无需任何辅助信息,易于处理离散数据并容易与关系型数据库相融和等,因此特别适合于知识发现和数据挖掘的任务。 本文首先介绍了标准粗糙集模型以及基于标准粗糙集模型的粗糙规则集。在粗糙集理论中,粗糙规则集合的不确定性一般是由近似度来度量的,但是以近似度作为粗糙规则集不确定性的量度,仅反映了规则集合的一致性,而未考虑其随机性。鉴于此,我们引进了规则准确度和覆盖度的概念,规则的准确度主要反映的是规则一致性(或不一致性)的情况,而覆盖度反映的是规则随机性的情况。在数据挖掘过程中,我们希望得到既有高准确度又有高覆盖度的规则。进而本文讨论了一类基于信息熵的不确定性量度问题,以信息熵Hdet作为规则不确定性量度,可以使不一致性和随机性这两种不确定性均在一定程度上得到消除,从而可使所获得的规则集具有更好的分类、预测性能。 其次,本文还深入研究了属性化简问题,属性化简是粗集数据挖掘中的核心问题之一,它包括属性约简、属性值约简及连续属性离散化等问题。属性化简的问题是NP-Hard问题,其算法的效率决定了数据挖掘算法的效率。关于属性约简本文提出了几种方法,其中有基于决策属性支持度的启发式约简算法,带有惩罚函数的遗传约简算法,以及基于区分函数与强等价集的属性约简算法等,这些算法的提出均以提高算法效率和改善收敛性为主要目标。另外,本文还提出了改进的属性值约简算法和连续属性离散化方法,用本文所提出的属性值约简算法会使最终的值约简结果得到更进一步的简化,从而使决策规则更加简洁。若将属性约简问题看成是决策表在横向上的化简,那么连续属性离散化即可看成是决策表在纵向上的化简,本文提出的连续属性离散化方法会使划分后的决策表既保持原始分类能力不变又具备较高的约简效率。 标准粗糙集模型在处理某些实际问题过程中经常表现出一定的局限性,如对数据噪声过于敏感,对连续取值或属性值过多的情况不易处理等。针对这些局限,出现了不少标准粗糙集的扩展模型,可变精度粗糙集模型就是其中之一,它通过预置近似精度因子,放松了标准粗糙集的严格的边界定义,从而使模型具有抗噪声的能力。受变精度粗糙集模型的启发,本文构造了变精度粗糙规则集,并给出了其不确定性的信息熵量度HVPRS,HVPRS将不一致性较弱的规则等同于一致性规则,对数据中的少量不一致性忽略不计,克服了标准粗糙规则集对数据噪声过于敏感的缺点,具有一定的容错能力。 最后,本文的研究工作结合了辽宁电力有限公司管理信息系统(LNDLMIS)的开发、设计过程,对于数据仓库环境下的新型电力营销辅助决策支持系统给出了总体设计思想和实现的手段,并结合客户信用分析主题详细论述了粗集数据挖掘方法在客户信用分析中的具体应用过程。通过本文的分析方法,可使客户信用评价问题,不仅面向简单处理层面,而且面向规则获取和知识发现的层面,从而能够更加有效的完成决策支持的任务。
其他文献
光纤陀螺具有独特的优势,应用越来越广泛.对于实用化的光纤陀螺,一般要求其具有较宽的工作温度范围,然而,光纤陀螺对环境温度的变化却很敏感.从实测的温度曲线上看,当环境温
网络控制系统利用控制网络在控制器和被控对象之间传送控制信息,减低了系统的布线造价和复杂度,并给系统带来了灵活性.同时由于信息在网络中传输存在时延等问题,而影响了控制
磁悬浮轴承是一种新型的支撑部件,由于它具有无摩擦、无需润滑、寿命长等优点,越来越受到科技界和企业界的重视。它是一种高新技术,涉及到电磁学、机械学、转子动力学、控制理论和计算机科学等众多领域。本文的工作是研究磁悬浮轴承的数字控制器。主要内容如下: 首先,在简单分析了磁悬浮轴承工作原理的基础上,从单自由度入手,通过对16极径向轴承的力学分析,推导了单自由度情况下电磁力与控制电流、转子位移之间的非
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机器人控制策略的比较合适的方法,最流行的强化
在电力系统中安装柔性交流输电(Flexible AC Transmission Systems,FACTS)装置(例如可控串联补偿(Thyristor Controller Series Compensator,TCSC)、静止无功补偿(Static Var Comp
医疗诊断设备极大地提高了人类获取自身信息的能力,推动了现代医学的发展.这些设备获得的信息主要以图像的形式存在,因此对这些图像的处理就成了充分发挥其效果的关键.由于其
模糊控制系统的稳定性分析和设计方法一直是较活跃的研究课题。模糊系统本质上是非线性的,因而稳定性分析比较困难,到目前为止虽已经存在许多种保证模糊控制稳定的理论,但仍未形
当传统的信号处理技术难以满足复杂智能系统对信息的多层需求时,多模态信息融合技术便应运而生,并显示出了强大的信息处理能力。我们将研究的重点放在目标识别融合技术,是因为很
随着经济的发展和人民生活水平的不断提高,家庭仪表的用途越来越广泛,电表、水表、气表大量地出现在人们的生活中。同时,这些仪表的抄录工作也变得越来越烦琐,工作量变得很大,传统
实现工业控制信息化和高效经济的运行,需要大量的现场设备信息。无线传感器网络随着科学技术的发展更加成熟,将无线传感器网络与传统的有线网络进行有效的结合,实现对工业系