【摘 要】
:
波兰数学家Z.Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类
论文部分内容阅读
波兰数学家Z.Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。目前,粗糙集理论已成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。粗糙集在数据挖掘的过程中,可用于数据挖掘的数据预处理部分。本文正是以此为出发点,以粗糙集理论应用于数据挖掘数据预处理的相关步骤为线索,对粗糙集理论中的几个关键问题进行了深入地研究。全文重点论述的内容如下: (1)连续属性的离散化问题 粗糙集能出色地处理离散属性,但不能直接处理连续属性,在数据挖掘应用中,往往需要进行连续属性离散化处理。本文提出了基于遗传算法的连续属性离散化方法HCGA。该算法克服了基于支持度和基于重要性等离散化算法容易得到局部最优解的缺点,实验证明文中的算法兼顾了属性离散化的全局性和准确性。 (2)属性约简算法 到目前为止还没有一个公认的、高效的约简算法。本文通过分析胡可云博士提出的HORAFA算法,指出了其不能获得最优约简的缺点,提出了改进的属性约简算法BFA和ABFA。通过对比实验分析,BFA算法和ABFA算法都能得到较优约简,但比较这两种算法的时间复杂度,ABFA算法具有更高的效率,是一种较优的约简算法。 (3)决策规则提取算法 基于粗糙集理论实现数据挖掘的目的就是为了得到有用的知识以指导决策,属性约简的最终目的也是为了得到有用的规则,一个好的规则提取算法可以对决策更加有利。而提取的规则必须符合实际应用,本文通过对决策树规则提取算法的研究,提出了改进的基于决策树的规则提取算法,在原ID3算法的基础上加入了风险控制条件,同时考虑了父代规则对子代规则关联信息的影响。实验证明,可以将这种算法应用到现实生活中去。
其他文献
人脸是我们最熟悉的器官,但真实感人脸合成却是计算机图形学领域中最困难的问题之一。自从上世纪70年代Parke建立了世界上第一个人脸合成系统以来,具有真实感的人脸合成就一
需要打印连续色调图像(Continuous Tone Images,例如照片)时,首先要经过一个加网(Screening)的过程,这一加网过程使得连续色调图像变成二值的数字半色调图像(Digital Halftone I
Universal Description,Discovery and Integration,简称UDDI,是构成Web Services的重要基础设施之一,在整个Web服务体系内提供服务发现功能,是 Web服务能够从实验室走向工业界必
信息安全风险评估,是依据国家有关信息安全技术标准,对信息系统进行科学评价并为受评机构提供具体安全措施建议的过程。没有准确及时的风险评估,机构将无法对其信息安全的状况做
通用串行总线(Universal Serial Bus,USB)是一种新兴的外设总线标准,具有即插即用、数据传输快速可靠、扩展方便、成本低、功耗低等优点,已成为当今个人计算机必备的接口之一,同
近两年来,流媒体技术在网络多媒体传输领域的应用越来越广泛。P2P技术的引入也使流媒体摆脱了完全依靠单一服务器的模式,降低了网络带宽占用率,提高了服务质量。涌现出了大量的
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术,它是—种新型的无基础设施的无线网络,能够协作地实时监测、感知和
无线网络近年来得到了大规模的应用,但是,无线网络链路本身具有信号衰落、外部干扰、多路访问竞争、节点移动等特点,使得链路的比特错误率较高,从而导致了无线网络下的TCP协
电力需求侧管理系统中汇集了各个厂商,各种不同型号的设备,使系统的功能日趋丰富。然而各个生产厂家在传输规约上基本没有统一的标准,不同厂家设备通信联接困难,给系统维护和升级造成很大的隐患。 本文对工业自动控制领域的规范--OPC技术(OLE for process control)和变电站需求侧分布式系统进行了深入的研究,针对的需求侧管理系统存在的问题,提出了在变电站需求侧系统中引入OPC技术的
句子级别的机器翻译质量估计任务以源语言语句及对应的机器翻译译文为输入,对译文的质量进行估计。随着近几年机器翻译的发展,机器翻译质量估计逐渐成为自然语言处理领域内的