基于决策树的软件分类方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sjtygk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件分类有利于快速地对软件进行分析和评估,更好地指导软件开发过程中的进程计划、人员组织和资源分配等工作。现有的软件分类方法仅根据软件的外部属性对软件进行分类,不能实现对软件的细粒度划分。因此,需要研究一种新的软件分类方法。为了实现软件的细粒度分类,提出了运用数据挖掘方法对软件测试过程中产生的大量数据进行分析,提取软件的分类描述规则的软件分类方法。该方法依据对软件进行细粒度分类的要求,具体选用了决策树分类方法构建软件的分类模型。针对所得到的测试数据的特征,选取了在数值字段处理方面具有高效性的SLIQ(Supervised Learning In Quest)算法构建分类器。分析了基于最小描述长度(Minimum Description Length, MDL)的剪枝算法在准确性上的不可信性,确立在SLIQ算法中采用预剪枝方案。最后,采用常用的K-折交叉确认法评估分类模型的性能。设计实现了基于SLIQ算法的软件分类实验系统,包括数据集的获取与预处理、决策树分类器的构建、分类模型的验证评估等几个部分,并以国产达梦数据库管理系统软件的测试版为实验对象,提取了软件的分类描述规则。研究结果表明,挖掘生成的规则能反应软件的实际情况,并标识了对软件的最终类别影响较大的属性因素,对后续的开发过程有一定的指导意义,具有一定的实用价值。
其他文献
随着计算机网络向社会各个领域的渗透,对网络安全的研究越来越受到研究人员的重视,其中基于策略的安全管理是研究的热点问题之一。作为基于策略安全管理系统核心之一的安全策
东软信息学院是一家主要从事信息技术领域学历教育、培训教育、在线大学教育的教育服务提供者。随着技术进步和社会发展的需求,学院的教学计划调整非常频繁。教学计划的调整要
基因表达谱数据分析需要统计学、模式识别、人工智能、计算机和生物科学等方面的知识。基因表达谱的出现为以上学科在理论和应用上的发展提出了新的挑战。复杂疾病分类,差异表
电子商务到现在为止已经走过了近半个世纪。网络经济的第二浪潮也正在身边风起云涌。在浪花过处,人们逐渐认识到:商务仍是这一切活动的中心,客户服务则是商业成功的关键所在
随着网络的飞速发展,可扩展标记语言(eXtensible Markup Language,XML)以其自身的优点,迅速成为数据表示和数据交换的标准并得到广泛的应用。目前,如何利用使用广泛、数据处
4R-树索引是当前较为实用的双时态索引技术,它由R1、R2、R3和R4四棵相互独立的R-树构成。4R-树索引能够有效地处理时间变元Now和UC,且可在任何支持R-树的数据库管理系统上使用
入侵检测是用来检测和识别对计算机系统和网络系统,或者更广泛意义上的信息系统的非法攻击,或者违反安全策略事件的过程。它从计算机系统或网络环境中采集数据,分析数据,发现可疑
通过建设综合决策支持系统对社会保险管理信息系统产生的大量数据资产进行管理和智能分析,向业务决策人员提供基于知识的决策支持,已成为我国社会险信息化建设进一步发展的重要
加入WTO后,我国汽车业面临的不仅是国外汽车产品带来的冲击,更严峻的是汽车服务市场的竞争,而配件供应在售后服务中的位置举足轻重,特别是售后服务配件的库存既占用了企业资
随着机构改革的深化和企业宏观管理职能的加强,原有的管理办公模式已不能适应日益增长的事务处理、信息共享等方面的要求。为了提高管理工作效率,完善管理模式,必须充分利用