信息增益率相关论文
文章针对信息增益变量选择方法(IG-SIS)的不足,对其进行改进,提出适用于超高维、无模型假设框架下基于信息增益率的变量选择方法(I......
数据挖掘是指从大量数据中提取出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级过程。其目的是从数据中抽取知识。而分类......
决策树C4.5算法是数据挖掘中最为著名的算法之一,它所能应用的领域非常广。文章首先阐述决策树C4.5算法的基本概念,其次分析并总结......
为更好预测预报王庄煤矿3号煤层自然发火进程,通过程序升温氧化实验并采用基于信息熵的C4.5决策树算法,分析煤自燃不同阶段标志气......
随着数据规模的不断增大,竞争的日趋激烈,人们迫切需要从大量数据中挖掘出有用的知识和信息来辅助决策,数据挖掘技术随之应运而生。聚......
数据挖掘是对大数据集的探索过程,并揭示出其中的隐含规律,它融合了众多的技术,是计算机科学的一个重要分支。其中分类分析是数据......
结构振动数据从数据类型上看是高维的时序数据,而时序数据并非独立同分布的。在结构振动数据的异常点检测上看,所利用的算法并未充......
土地整治是保护国家耕地资源和开发耕地后备资源的重要手段,而土地整治适宜性评价则是土地整治前必不可少的工作,对土地整治规划和......
随着机器人技术的蓬勃发展以及相关扩展功能的研发,人们对人机交互体验提出了更高的要求。由于现有的人工情感模型缺乏统一的情感评......
信用评估是一种特殊的多类分类问题,具有分类结果线性分布的特点,本文在多类支持向量机的基础上对这类问题做了研究。首先介绍了信用......
对于一个城市尺度的居民用气、用水数据系统,其数据量之大通常是人力无法或难以处理与分析的,往往需要借助于数据挖掘技术.基于天......
鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工......
目的 建立护理质量管理评价的决策树模型,以使护理质量管理由定性评价变为定量分析.方法 以390名护士的一般资料和585例住院患者对......
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:......
针对C4.5决策树构造复杂、分类精度不高等问题,提出了一种基于变精度粗糙集的决策树构造改进算法。该算法采用近似分类质量作为节......
针对目前大部分钓鱼网站检测方法存在检测准确率低、误判率高等问题,提出了一种基于特征选择与集成学习的钓鱼网站检测方法。该检......
结合太阳耀斑与日冕物质抛射参量作为预报因子建立太阳质子事件预报模型。描述太阳耀斑的三个特征参量包括耀斑峰值流量、持续时间......
应用决策树方法对大学生就业信息进行了分析挖掘,并抽取规则知识,指出专业成绩、外语成绩、实践能力等是影响学生就业层次的主要因素......
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则。基于信息熵的连续数据离散化预......
提高故障诊断能力对于确保水下机器人系统的稳定运行具有重要意义,故障分类是目前水下机器人故障诊断所面临的一个重要问题;针对水......
遥感影像变化检测是全球变化研究的重要内容。基于两期遥感影像的变化检测方法存在数据条件要求苛刻、难以充分利用快速发展的多源......
护理质量是医院医疗质量的重要组成部分,是衡量护理工作质量和效率的重要手段。建立科学、合理、严谨、量化的护理质量评价模型已成......
针对信息增益和信息增益率对属性取值数的偏好,提出了一种调和平均优化选择划分属性的决策树改进算法.首先计算候选划分属性的信息......
传统的K均值聚类算法采用欧式距离计算样本间的相似度,由于未考虑不同样本属性对于衡量样本间距离区分度的重要性,导致相似度计算......
鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作......
光学字符识别是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并且通过字符识别模型将图像中的文......
近十年来,我们面临快速增长糖尿病患者人数,病患族群也成为了公共健康最沉重的负担之一。预先血糖控制可以减缓或防止糖尿病并发症......
针对信息增益偏向于多值属性,信息增益率倾向于少值属性的特点,研究几何平均参与评价划分属性的决策树。从候选划分属性中,筛选高......
用2014年应届本科毕业生的跟踪调查数据,挖掘大学毕业生主动离职的主因,建立决策树模型预测本科毕业生主动离职倾向。结论是:"毕业......
烟叶香气风格分类是利用烟叶外观质量、理化成分判定其香型、香气质量的类别。为了提高分类能力,通过特征选择发现最佳属性集是一种......
针对利用信息熵评价焊接疲劳性能影响因素所存在的问题,引入信息增益率的概念,建立了碳钢与不锈钢电阻点焊接头疲劳性能影响因素分......
为解决克隆代码有害性预测过程中特征无关与特征冗余的问题,提出一种基于相关程度和影响程度的克隆代码有害性特征选择组合模型。......
决策树算法是在已知具有不同特征的样本数据出现的概率基础上,构建决策树来进行数据分析的一种算法。在数据分类算法中,决策树算法......
为解决现阶段医疗机构中不同科室数据异构,导致标识准确率低的问题,提出并设计了结合信息增益率的异构医疗数据库字段标识系统.给......
针对高速公路入口合流区域换道事故频繁发生的情况,利用决策树方法建立了车辆在该区域的并线决策模型,保证车辆并线时的安全;借助......
基于挖掘分析影响学生学习效果主因素为目的,采用了能够对数据进行挖掘分析并直观展示结果的决策树技术方法,通过某班学生某门课程......
消费行为因素分析对产品生产和销售具有重要指导作用。为了利用消费者的消费数据进行消费行为建模和分析,首先进行消费数据形式化......
针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题,提出了C4.5决策树的三种改进方法——C4.5+δ、均匀......
数据挖掘中基于决策树的C4.5算法是一种经典的分类算法,该算法具有ID3算法的优点,但是也存在缺点。针对原算法的不足,改进算法简化......
在介绍了ID3算法和J48算法之间的关系以及J48算法的流程的基础上,着重对信息增益率的计算方法进行了说明,然后在Weka平台上选用鸢......
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对......
C5.0算法是一种直观、效率高的分类方法,但该算法存在信息增益率计算复杂、容易出现过拟合和决策树偏倚的问题。针对这些问题,通过......
C4.5算法属于决策树算法,分类规则以树的形式视觉化呈现。C4.5算法的最大特点即建树规则易于观察与理解,并且分类速度快,分类器准......
依据多关系数据库中的背景表对分类任务具有的不同大小贡献度,提出一种基于关系选择的多关系朴素贝叶斯分类算法。对关系表进行两......
自2007年引入中国,互联网金融主要模式之一的P2P网络借贷,凭借着其低门槛、操作简便等诸多优势得到了爆发式发展。据统计,截至2015......
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pea......