基于GMDH模型及模糊聚类的特征提取研究

来源 :科学与管理 | 被引量 : 0次 | 上传用户:hejingyang0806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:特征提取算法可以去除目标数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高目标对象的识别率以及数据的挖掘速度。现有的特征提取方法在定性数据及噪声数据的处理上存在局限性,而定性数据及带噪声数据在现实建模过程中是不可避免的。本文从特征提取需解决的根本问题出发,就如何确定特征子集并选择适当的隶属函数来表示模糊子空间,使模糊规则归纳模型有最大的识别率及抗干扰性的方法进行讨论、研究。
  关键词:特征提取;模糊聚类;隶属函数
  中图分类号:O159;TP311 文献编码:A DOI:10.3969/j.issn.1003-8256.2016.06.009
  1 引言
  自组织模糊规则归纳(Self-Fuzzy Rule Induction Using GMDH,简称FRI)本质上是一种基于GMDH技术的规则归纳法,能自动地从数据中提取模糊规则形成自然语言描述的模糊模型用来描述复杂系统,可以用来提取目标数据中的特征规则。该方法属于非参数GMDH,其执行过程就是应用黑箱方法从数据中自动地建立模糊推理系统(输入输出映射关系的模糊规则的集合),保持了GMDH适于有噪声样本的建模优点。FRI使用黑箱方法分析处理系统输入输出变量之间的关系,运用GMDH技术将每个输入变量(定性或定量)的区间分成重叠的等距离的区间,使用型的隶属函数将原始的分明变量转换成模糊变量,通过GMDH算法,将输入空间分成模糊子空间并确定最优个数的输入变量,运用系统的输入输出数据和选择准则和,自动地提取模糊规则,形成由自然语言描述的IF-THEN模糊模型来描述系统行为,例如,文献[1]利用FRI网络提供的信息直接提取出IF-THEN形式的规则,这种方法分析美国国会选举结果的正确率达到了97%。
  目前用于高维客户数据规则提取的机器学习分类算法有很多,但通过文献分析发现,Kira和Rendell提出的基于距离的Filter方法提高了计算速度,但其中的距离指标只适用于定量数据[2]; Relief系列算法是公认的分类效果较好的filter式特征提取算法[3],能够处理离散和连续的数据,但该算法不能辨别冗余特征。而Kalousis[4]和Riyaz Sikora[5]等人通过模拟实验证明了大多数特征选择方法对数据噪声比较敏感,难以保证得到最优特征。要得到较好的特征提取效果,要充分考虑样本的选择与转换,离散化和噪声干扰等问题[6]。
  在研究中发现,数据中大都包含无关特征,甚至噪声特征,而通常样本数据又不是很充足,那么很容易发生所谓过拟合(over-fitting)现象,导致算法分类精度能力下降、学习速度低。虽然FRI适合于在定性和定量的细分数据中提取特征,但对目标数据群使用同一个隶属函数进行模糊化,使得当细分共同特征较多时,现有的FRI方法进行特征选择的精度较差。文献[7]和文献[8]分别从特征提取的不同角度提出:在不降低精度和保证结果的特征分布和原始数据相似的条件下,应选择尽可能小的特征子集用于特征提取。
  2 模糊特征提取模型的构建与检测
  通过定义一种对输入空间的一般模糊划分(Fuzzy Cut)确定特征子集,并根据样本数据自动生成隶属函数的新算法——FC-GMDH。该算法取代了对所有样本数据采用同一隶属函数,且建模过程中缺乏对数据样本进行划分的FRI方法,建立了一种新的基于模糊划分的自组织模糊特征提取模型。新算法由于根据特征子集样本数据来定义隶属函数,而不是领域专家的主观经验,更能体现模糊建模的客观性。通过对模型的检验来验证新算法的有效性。
  2.1 特征子集的划分策略
  通常,描述目标对象需要一些特征,随着特征个数的增加,会出现维数灾难(curse of dimensionality)问题,直接导致识别率的降低。特征提取是对原始特征进行线性或非线性变化之后得到的一组特征,可以去除数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高模式的识别率以及数据的挖掘速度。特征提取时,系统的状态和目标往往都是用自然语言描述的,难以定量确定,可以说建立具有模糊、不确定性的特征子集划分对于提取特征是至关重要的[9]。
  现有的FRI算法忽略了特征子集的划分,对所有的数据样本采用同一个隶属函数进行模糊化处理,使得当样本共同特征较多时,特征选择的精度较差。
  特征提取中首先要解决的问题就是特征子集的产生。一个最直接的想法就是枚举法,将所有可能的子集列出,然后进行评价,选择最优的一个,但该算法的计算量太大,实际运用中很难操作[10]。
  在构建模糊特征提取模型时,首要的任务就是将模型的输入空间划分成多个模糊特征子集,即模糊划分(fuzzy partition)。1969年Ruspini[11]将数据的硬划分概念推广到模糊情形,引入数据的模糊划分,并且在阐述模糊聚类分析的文章[12]中给出了模糊划分的定义:
  定义1 论域上X的一个模糊集合族叫做X的一个模糊划分P,当且仅当:
  ① ;
  ② 。
  当时,
  令;称矩阵为模糊划分P的划分矩阵。
  在论文[13]中,主要将模糊划分区分为三种划分方式:
  ⑴格状划分(grid partition)[14]:是将每一维度的输入空间作划分来求的模糊集合,再根据模糊系统理论,将模糊集映像成模糊区域。该方法虽然实现比较容易,但产生的模糊规则数目随输入特征数目指数增长。因此这种方法很难解决具有高维空间的特征提取。
  ⑵树状划分(tree partition)[15]:是一次产生一个与模糊区域相对应的一个划分。这种划分方法虽然可以避免模糊规则指数增长的问题,但却很难决定哪个特征在哪个区域,如何划分。   ⑶散状划分(scatter partition)[16]:是将输入输出的数据作分析,将欲产生相似结果的输入空间以模糊区域作划分,每一模糊区域可用作描述输入输出数据的行为。该划分是一种较灵活的模糊划分方法。它既兼顾了前两种方法的优点,同时又去掉了他们的不足。在我们的模型构建中,就采用了散状划分这类划分方式。
  本文所采用的基于等价关系和模糊集理论的模糊划分最早由Wu[17]等人提出。该方法从训练集数据集中为系统的输入变量确定特征子集,通过对数据样本的划分,以便于接下来为各个样本子集分别赋予隶属函数。在构建自组织模糊特征提取模型时,我们提出先对样本进行特征子集的划分,再进行模糊化处理的建模思想[18]。具体步骤如下:
  Step 1. 在训练集中,输入和输出已知。在训练集P中包含n个输入输出对(input-output pairs),表示为 。将这些输入输出对基于输出语言变量升序排列,。
  Step 2. 建立个样本数据输入输出间的相似关系,得到一个维(dimension)相似矩阵(similar matrix) ,由以下公式定义:
  (1)
  (2)
  其中,是一个常数,且,,和的计算如下:
  (3)
  (4)
  是所有样本数据中系统第一个输入变量的最大值,是输出语言变量的最大值。建立起N个样本数据间的相似关系后,得到一个n维相似矩阵。
  Step 3. 采用平方法[19]将相似矩阵改造成等价矩阵(equivalent matrix),如下:
  (5)
  令,对至多进行次平方,就可以得到。
  Step 4. 取等价矩阵的截矩阵(intercept matrix),通过对样本数据进行分类,若=1,则和所在样本数据为一类。其中,当变化时,等价矩阵确定的分类所含元素由少变多,逐步归并,最后成为一类。因此,的取值决定了要将样本数据划分成多少个类。
  采用同样的方法,也可以将输出变量进行类似的划分。
  Step 5. 假设训练集的输入-输出对被划分为r个子集,表示如下:
  (6)
  其中,是划分训练集的阈值,是最后获得的分类数目。显然,分类的数目决定了隶属函数的个数。
  假设可以从个划分的特征子集中求得输出语言变量Y的第个输出变量集为,输入变量的第个输入变量集为,那么有:
  (7)
  (8)
  通过模糊划分确定特征子集后,就可以针对每个特征子集选用适当的隶属函数,通过特征提取获得模糊IF-THEN规则。下面,将介绍自组织模糊特征提取模型中隶属函数的选择。
  2.2 隶属函数的选择
  特征表示通常采用语言变量来描述,因此其特征提取可以通过模糊推理来实现。语言变量在模糊推理中常用隶属函数表示。传统方法构造子类以及相关隶属函数时需要借助领域专家的知识,属于知识工程领域的知识获取[20]。在实际应用中,建立适当的隶属函数是模糊推理的关键所在[21]。模糊集合使得某特征可以在一定程度上属于某集合。某特征属于某集合的程度由“0”到“1”之间的一个数值即隶属度(membership degree)来描述。把一个具体的元素映射到一个恰当的隶属度是由隶属度函数(membership function)来实现的。隶属函数可以是任意形状的曲线,曲线的形状决定了能否让分类器简单快捷的给出分类结果。其中,唯一的约束条件是隶属函数的值域为[0,1]。
  假设存在x属于集合A,表示为,若x不属于集合A,表示为。x属于集合A的程度(隶属函数)表示为。模糊集A定义为:
  (9)
  模糊集合A,B的隶属函数对应的运算规则如下:
  (10)
  (11)
  模糊推理首先要将输入变量与规则前件对应的隶属函数做比较,得到各模糊变量的隶属度,根据隶属度值进行模糊推理,得到最优模糊模型,由此可见,隶属函数的确定是模糊建模成功与否的基本而关键的问题。常用的隶属函数有高斯型、三角形、钟型、梯形和矩形等。
  如何确定隶属函数目前还无定法,但隶属函数的选择首先要考虑的是在模糊规则的产生及调整较为简便,可以实现和提高分类的识别率。一般认为,模糊分类系统的解释性与特征变量数目与隶属函数特性密切相关。
  在许多实际问题中,由于待模糊化的信息估计不精确或存在误差等原因,常常采用三角隶属度函数。因此,本文中为了计算简便并考虑到整个变量区域的覆盖性,对于经过以上模糊划分的各子类采用三角形隶属函数进行模糊化处理,如图1所示。
  其中,为第i个子类中第一个输入变量的最小值,为第i个子类中第一个输入变量的最大值。
  以上方法同样适用于输出变量集,可以求得输出变量Y的隶属函数。
  2.3 特征提取
  任何模糊模型处理的都只是模糊变量,因此,特征提取算法中首先要解决的问题就是对输入、输出变量进行模糊化。
  FC-GMDH建模过程与FRI算法相似,区别主要体现在以下两方面:采用以模糊划分为基础产生的隶属函数代替隶属函数;将样本数据分成训练集A和检验集B进行规则提取,FC-GMDH建模的主要步骤如图2中所示。
  Step 1.决定隶属函数
  与FRI方法不同的是将样本数据分为训练集和检验集( ),在训练样本集上,按照 2.1节 的步骤确定模糊特征子集。通过模糊划分后对每个子集输入和输出变量的隶属函数采用公式13~15分别计算输入、输出变量的隶属函数 。
  Step 2. 模糊化
  模糊化由与语言变量相关的模糊向量与模糊子集表示,对于输入的分明变量子集和输出y分别采用对应的隶属函数模糊化得到的输入向量及输出向量为和 。   Step 3. 模型选择
  运用GMDH网络结构,第一层的输入由初始输入变量的模糊集组成。第一层输入的个数由模糊集的总数和输入变量的个数确定的,即当产生一个静态模型时,有个输入神经元,通过外准则在检验集上选取最优模型。算法中使用的外准则为:
  (16)
  其中,是样本输出,表示测试集上的样本数,运用模糊逻辑,每个神经元规定一个合取运算,即“AND”运算,用于模糊归纳的是“min-max”推理[22]。
  Step 4. 逆模糊化
  使用GMDH方法将得到的最优模糊模型输出变量进行逆模糊化,便于在原始数据库中找到对应值及含义。
  3 特征提取实证评价
  为验证自组织特征提取算法在实际环境下的适应性,建立特征提取模型的通用方法,本文实证评价所选用的数据源是2000年度COIL竞赛提供的TIC样本集TICEVAL2000。
  3.1 样本初始化
  样本集TICEVAL2000中共有4000个样本,包含了85个条件属性和一个决策属性。决策属性“CARAVAN”表示是否购买“mobile home policies”( 车险)。分别用符号“0”表示“未购险”,“1”表示已购险。其中238个为潜在客户,3762个为购险可能性较小的客户。可见“已购险”和“未购险”客户的比例严重失衡,样本集中未购买保险的客户比率约占94%,在这类样本“失衡”的数据集中提取规则的困难是可想而知的。
  我们在实验中,首先使用模糊划分的方法对TICEVAL2000进行有效特征子集的划分,然后通过对各个子集分别赋予不同的隶属函数进行模糊规则归纳,产生决策规则,帮助找出购买车险的潜在客户。
  实验中使用10倍交叉验证方法(ten-flod cross validation)评估从数据集中获取的规则集的分类精度。所有的样本被随机抽取,划分成10个互不相交的相等数目样本子集,每一个子集都包含400个样本数据。对于每一个子集,所有其他的样本用于训练提取规则,而该样本用来测试,如此轮换执行10次交叉验证,最后的结果为10次分类精度的平均值。并且通过与FRI算法的实验结果进行对比,来验证新算法的有效性。
  3.2 结果及分析
  实验结果列在表1和表2中,对于样本集TICEVAL2000分别用FC-GMDH算法和FRI算法进行特征提取。实验采用FC-GMDH算法对样本集中的有效特征子集进行划分后产生的决策规则比使用FRI算法直接对所有特征子集产生的规则有更高的分类精度,也就是说对特征样本集的模糊划分提高了分类精度。
  从表1 可以看出,我们所提出的FC-GMDH算法和FRI算法相比,新算法找到的约简特征数更为有效,可以产生更好的分类规则。从模糊规则提取的三个目标:最少的模糊规则数量,最短的模糊规则长度以及最高的分类精度进行算法的综合评价来看,FC-GMDH算法仅利用25个约简特征产生的9条分类规则,其分类精度的均值就达到了87.69%。
  虽然在10重交叉检验的实验中,FRI算法的最高分类精度略高于FC-GMDH,但从分类精度标准差来看,标准差越小,对应的算法越稳定,所以新算法是比较稳定的。
  可见,FC-GMDH算法采用了首先将样本数据进行模糊划分,再进行规则提取的方法,其分类精度优于FRI算法。
  不同算法从85个特征集中所选择的特征在表2中列出(表中仅列出序号)。与ELSA算法结果相比,FC-GMDH算法提取的25个规则中有19个规则属于正确分类所必需的,规则命中率为76%。而FRI算法得到31个规则中仅有15个命中目标,命中率仅为48.3%。
  通过FC-GMDH的规则提取,我们得到购买车险的规则如下:
  ①IF(middle class families=8) AND (customer type=driven growers) AND (high level education) AND (purchasing power class=7) THEN (buy mobile home policies )
  ②IF(contribution car policies=6) AND (contribution fire policies=6) AND (number of car policies =2) AND (Contrabution agriclutural machines policies=3) AND (High level education) THEN (buy mobile home policies)
  ③IF(Mixed seniors=5 ) AND (age=2
其他文献
摘要:阅读在高中语文中的作用是不言而喻的,对学生的学习和成长影响十分的明显。读万卷书,行万路里,才可以获得足够的知识,丰富自己的生活。高中语文教学的重点不在于为学生布置多少作业,而是以阅读的方式丰富学生内心的情感,增加学生人文气息。阅读是高中语文教学工作中的重点内容,也是达到教学目标的重要部分。增加阅读量是提高语文教学质量的关键,从阅读的现状入手,对高中语文教学中存在的问题进行详细地分析,希望为读
“兴趣是最好的老师。”为了培养学生学习数学的兴趣,巧设情境导入新课,注重教学方法和教学艺术,重视数学在生活实际中的应用,体验成功带来的喜悦,建立和谐的师生关系等方面,
目的探析冰冻棉棒涂擦刺激法在脑卒中吞咽障碍早期护理中的应用效果。方法170例脑卒中吞咽障碍患者,按照入院先后顺序随机分为对照组和研究组,每组85例。对照组患者给予常规
目的:探讨24 h尿β2-微球蛋白(β2-MG)排泄量在糖尿病肾病(DN)中的早期诊断价值.方法:用放射免疫法测定116例尿常规试验蛋白为阴性的糖尿病(DM)患者24 h尿白蛋白和尿β2-MG排