C4.5算法在软件评测满意度分析中的应用

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:langyagongzi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:大数据时代已经到来,对数据的处理越来越受到关注,人们迫切需要海量数据背后的重要信息和知识,发现数据中潜在的联系并且发现可以有效运用的方式,取得对获取知识有用的信息,然后根据当前的信息对今后的发展趋势进行预测。目前最常用的评价方式就是运用C4.5算法,将日常的数据有效汇总,然后对客户的相关数据分析比对,根据客户之间不同的特征进行不同的改善方式,达到了提升满意度的效果。
  关键词:数据挖掘;决策树算法;C4.5算法;信息增益
  中图分类号:TP311.13
  随着信息技术的快速发展,同时软件评测项目也逐渐走进了大众的视野,并获得了广泛的认可,针对当前市场环境变化风云莫测,竞争越来越激烈的情况,如何提升软件评测满意度是软件企业生存发展的根本动力。本文就从当前客户对评测不满意的情况进行挖掘,对信息进行分析,找出相似点,采取有针对性的措施提高客户对评测过程的满意度。
  1 数据准备阶段
  对于准备阶段的工作就是将长期积累下来的大量的数据进行测量,看是否适合进行深入的挖掘,这是对于数据挖掘的关键性的一点,由于很多数据在长时间的积累下,产生了冗长的、繁琐的信息,这时就要对数据进行筛选,然后净化,最后还要检查对于数据挖掘的工作是否已经做充分。
  我单位的评测信息库中,许多信息是有必要采集的,但有些数据不必要采集,在如单位名称、评测价格、评测分类、软件功能、联系人等信息属性中,对于这些信息就要在其中剔除一些我们不需要的干扰因素,只留下需要的数据。(1)属性删除。对于单位的评测信息库中我们不需要的数据属性就要进行合理的删除,因为如果不删除,就会有一些无用的信息取代合理需要的属性从而使软件无法对我们需要提取数据的领域进行操作,这些属性通常概念层面较低,比如用户的电话、传真等等,就要将其删除。(2)属性泛化。属性泛化的意思就是要对阈值控制的层面进行上下的分层。从软件测试形式看有功能测试、单元测试、性能测试等20多种类型,以测试目的来划分主要为产品登记测试、鉴定测试、符合性测试、验收测试等这几种情况。如果将工作区域理解为工作的地区进行搜集,工作地区分为本地区和与外地,这对于搜寻的准确性有较大的影响;将工作区域缩小为市级单位,会因为取值的数目太多超过了规定的阈值,所以要将工作地区删除。(3)连续型属性概化为离散值:表中评测费用和企业规模人数是具有连续性的,而且在对决策树进行构建时,运用分散的数据处理起来更加方便,所以对于连续性的属性将其概化为离散值,这样能更方便的运用,将评测费用分为以下六组。FY1<3000,3000≤FY2<5000,5000≤FY3<10000,10000≤FY4<50000,50000≤FY5<200000,200000≤FY6。人数分为5组:RS1≤100,100  表1
  企业规模 评测费用 合同情况 评测类别 软件复杂度 报告内容 报告满意度
  ①不满意
  ②满意
  ③基本满意
  ②满意
  ……………….
  2 用C4.5算法构建满意度树
  2.1 决策树生成。(1)计算满意度分类所需的总信息熵。设S为训练集样本总数,共有m类样本Ci,(i=1,2,3,……m),Si为类Ci中的样本数,计算公式为:I(s1,s2,……sm)=-,其中pi是任意样本属于Ci的概率,可用Si/S来估计。在这个例子中,将满意度分为三个类别,满意,基本满意和不满意,且m=3。(2)计算每个属性的信息熵。设属性X具有u个值﹛X1,X2,……,Xu﹜,它将S分成u个集﹛S1,S2,……Su﹜,其中Sj包含S中这样的一些样本,它们在属性X上具有值Xj(j=1,2,…u)。以属性X为分类所需的期望熵(条件熵)是:,其中Sij是子集Sj中属于类Ci的样本数,,是Sj中的样本属于Ci类的概率。(3)计算该属性的信息增益和信息增益率。属性X的信息增益函数为:Gain(X)=I(S1,K,Sm)-E(X)。信息增益函数对于那些产生多分枝的测试倾向于生产大的函数值,但是输出分枝多,并不表示该测试对未知的对象具有更好的预测效果。使用“信息增益率函数”,它同时考虑了每一次划分所产生的子结点的个数和每个子结点的大小(包含的数据实例的个数),考虑的对象主要是一个个地划分,而不再考虑分类所蕴涵的信息量,属性X的信息增益函数为:,其中u为该节点的分枝数,Si为第i个分枝下的记录个数。(4)归纳决策树。依次计算每个属性的信息增益Gain(X)以及信息增益率A(X),选取信息增益率最大的,以该客户类别标记该树叶。如此类推,直到子集中的数据记录在主属性上取值都相同,或没有属性可再供划分使用,递归地形成初始决策树。
  2.2 决策树剪枝。对于构建满意度树剪枝的方式,要在得到数据后对数据的可利用情况进行详细的分析,对于异常的数据要予以剔除,因为他们可以引起满意度数异常的情况,通常剪枝方式可以运用后剪枝的方式,对于可能产生的满意度运用最差满意度估计的方式弥补偏差,信息决策树上的分枝上如果出现在估计范围内的错误,就要对每个分支的权重进行分析,计算对于不能剪枝的期望错误率,因为如果因为剪枝导致了该节点产生了更高的错误率超过了期望值,那么就必须对分枝进行保留,如果影响不大,那么就可以剪去子树。
  2.3 模式评估与应用。对于决策树模式的评估运用一般是根据分析数据的执行结果来确定的,要选择影响满意度的决策树,将对我们有用的数据进行提取和分析。对决策树的评估方法有保持方法和K-折交叉确认方法等。结果的可靠性更高,也更加精确。
  通过决策树,可以看到企业规模越大(RS4、RS5),由于软件的复杂度高,更倾向于做软件的代码测试、可靠性测试和一些新技术的测试,导致我们满意度下降的主要因素是报告的质量;企业规模一般和小(RS3),由于企业正加速转型升级,系统性的产品刚刚形成,市场不够稳定,报告类别多变,因此类别往往导致满意度下降;企业规模小(RS2),有一定的技术水平,但资金缺乏,费用往往导致满意度的下降;企业规模微小(RS1),企业管理比较混乱,往往是突发性的赶报告,合同周期往往导致我们满意度下降。
  3 结束语
  客户满意度是评测机构的生命线,较高的客户满意度是电子产品发展致胜的发包,对于评测机构来说也是发展中提升竞争力的重要方面,在C4.5算法对软件评测滿意度的分析中可以看出,将决策树运用到日常数据分析十分可行,也是对数据深入挖掘的常用工具,而且可以转化为直观的图像让使用者更加明确信息,当前将决策树技术引用到满意度的分析中去,我们改进服务意识,提高管理水平,增强专业知识。
  参考文献:
  [1]陶双红,常炳国.一种改进的C4.5算法及在贫困生认定中的应用[J].计算机光盘软件与应用,2013(02).
  [2]王蓉,李伟.数字图像处理课程教学辅助软件的设计与实现[J].计算机光盘软件与应用,2013(09).
  作者单位:浙江省电子信息产品检验所 软件评测实验室,杭州 310007
其他文献
近年来,随着我国光纤通信技术的不断发展以及网络规模的日益扩大,广电网络运营商的基础网络资源受到了越来越大的挑战,在此背景之下,要想实现广电网络的持续稳定发展,扩容改
<正> §1 前言1.1 朱德熙先生《的字结构和判断句》一文①,提出关于动词“向”的理论,并以此为基础对由动词性成分组成的“的”字结构以及由此类“的”字结构组成的判断句进
Web页面是所有互联网应用的主要界面和入口,各行业信息化过程中的应用几乎都架设在Web平台上,关键业务也通过Web应用程序来实现,Web应用程序的安全性变得越来越重要。Web应用本