论文部分内容阅读
由于客观世界本身所具有的复杂性、不稳定性和人们对其认识存在不完全性,在数据采集、录入、表述、编辑、处理、分析等过程中存在着各种误差.此外,在概念的定性与定量转换过程中会导致随机、模糊、未确知等不确定性数据产生,这些现象普遍存在于金融、军事、经济、商业、工业控制、电信等诸多实际领域.数据的不确定性往往会使得数据挖掘的结果不可靠,甚至出现错误的结果.因此,对不确定性数据处理的理论和应用研究受到了越来越广泛的重视,并已成为智能信息处理的重要研究内容.粗糙集理论具有以确定的方法处理具有不一致、不精确和不完备等不确定性信息的能力,近年来已成为备受关注的新型智能信息处理方法.为了处理具有连续属性和优势关系的信息系统,Salvatore Greco和Roman Slowinski等学者提出了优势关系粗糙集理论.优势关系粗糙集理论以优势关系代替了经典粗糙集的不可分辨关系,更好地满足了描述实际问题中某些属性具有偏序关系和连续属性的需要.由于优势关系粗糙集可以有效处理等价关系和具有偏序关系的决策信息系统,现已成为经典粗糙集的一个很重要的扩展理论模型.它在投资风险评估、客户关系管理、地震震级评价、军事目标威胁评估、动车舒适度评价等方面己得到了成功应用.目前,优势关系粗糙集对不确定性信息的处理主要采用变精度模型,科学合理的变精度模型和变精度阈值的获取是其关键,且对其他不确定性信息处理方法的研究和在实际领域的应用研究也显得非常急迫.本文采用优势关系粗糙集研究不确定性信息处理问题,从变精度模型、不一致信息系统的一致化转换方法、数据驱动的自主式学习等角度进行理论研究,并将理论研究成果应用于解决电信客户价值评价等实际问题.归纳起来,本文的主要内容和创新性研究成果包括以下几个方面:(1)提出了一种基于包含度和支持度的变精度优势关系粗糙集模型,克服了已有模型的不足,对信息系统中的原始信息利用更加充分.通过对现有变精度优势关系粗糙集的两个主要模型VC-DRSA和VP-DRSA的分析,发现由于决策信息系统中不一致对象的存在.VC-DRSA模型在计算对象是否进入下近似时会出现矛盾的结果.而对于VP-DRSA模型,上并集或下并集边缘上的对象很难进入下近似,从而影响了对信息的充分利用.在分析了以上两种变精度模型对不一致信息处理不足的基础上,提出了一种基于包含度和支持度的变精度优势关系粗糙集模型,分析了该模型所具有的数学性质,并证明了用该模型所得到的下近似是VC-DRSA和VP-DRSA下近似的并集,上近似是这两种模型上近似的交集.这使得包含在下近似的对象更多和包含在上近似的对象变少,不确定性区域减小,近似分类质量得到提高.从而在一定程度上降低了信息系统在处理过程中的不确定性.学生综合评价的实例分析表明该模型能更加充分地利用信息系统所提供的有用信息.并通过在UCI等数据集上的实验验证了该模型有助于分类性能的提高.(第2章)(2)提出了一种将优势关系下的不一致信息系统进行一致化转换的算法,实现了一种处理不一致信息系统的新方法.对优势关系信息系统中对象的向下不一致性和向上不一致性进行了度量,进而提出了对象整体不一致性概念,并给出了对象整体不一致性的三种度量准则,分别表示为α、ε和μ.在此基础上,提出了一种将优势关系下的不一致信息系统转换为一致信息系统的算法TIPStoC.该算法根据对象整体不一致性的大小,采用迭代方法每次将最不一致对象删除,直到信息系统变为一致.之后,在一致信息系统的基础上提取确定的决策规则进行分类预测.这是一种处理不一致信息系统的新方法,与其他方法相比的突出特点是能有效地将优势关系信息系统中的不一致信息识别出来.因此,该方法也可有效地处理军事和信息安全等领域中的离群值或孤立点的检测.(第3章)(3)提出了一种数据驱动的优势关系粗糙集自主式学习方法,有效地避免了知识获取过程中对先验知识的依赖,增强了优势关系粗糙集对不一致信息处理的适应性.在对优势关系决策信息系统的整体确定性、最大整体确定性、整体不确定性、最小整体不确定性特征进行度量的基础上,提出了度量各决策类集的最大确定性的准则和计算算法.并以各决策类集的最大确定性作为该决策类集的变精度阈值提出了一种数据驱动的自主式学习方法SL-DRSA该方法以各决策类集的最大确定性作为该类集的变精度阈值进行规则获取,避免了其他变精度模型对阈值选取的随意性问题和不断尝试而带来的计算复杂性问题.通过在UCI等数据集上的实验表明,该方法可实现根据数据集本身特性自主地确定各决策类集的变精度阈值,且表现出了较好的分类效果,特别是在不一致性较高的数据集中体现得比较突出.(第4章)(4)提出了一种面向领域的数据驱动的电信客户价值评价方法,该方法将领域专家先验知识和数据本身所具有的特征有效地结合起来,提高了电信行业客户关系管理的能力.首先借助领域专家的先验知识分别从客户当前价值和潜在价值两方面进行特征数据的提取、学习数据类别标定,而后以各决策类集的最大确定性作为变精度阈值进行自主式学习而获取决策规则.该方法有效地将领域专家的先验知识和数据本身特征进行了有机结合.由于电信客户数据量大且具有类别标定的学习数据难以获取,在训练数据集选择和类别标定过程中,采用了基于近邻熵的主动学习方法来最大限度地减少领域专家的工作量和提高对训练数据的选择质量.通过在实际运营商客户数据上的仿真实验对比,表明了该方法的有效性.这为电信运营商针对不同类型的客户采取不同的营销和服务策略奠定了坚实的基础,也为其他实际问题的解决提供了有益的借鉴.(第5章)