【摘 要】
:
在当今社会,信息技术的进步使得数据获取成本不断降低,随着海量数据的不断涌现,数据的维度也不断攀升。一般来说数据的维度越高,计算复杂度越大,数据中的噪声与冗余特征产生
论文部分内容阅读
在当今社会,信息技术的进步使得数据获取成本不断降低,随着海量数据的不断涌现,数据的维度也不断攀升。一般来说数据的维度越高,计算复杂度越大,数据中的噪声与冗余特征产生的负面影响越严重。因此,如何降低数据的维度,提高数据分类精度,已经成为机器学习领域的重要问题。本文围绕数据降维对机器学习分类效果所产生的影响这一问题展开研究。首先构建降维分类的分析架构,利用非线性降维局部线性嵌入(LLE)和线性降维主成分分析(PCA)这2种不同的降维方法与梯度提升决策树(GBDT)、随机森林(Random Forest)、支持向量机(SVM)、K近邻(KNN)、Logistic回归分类(Logistic Regression)共5种机器学习分类方法进行了组合。然后利用手写数字识别数据集,对这5种分类方法在不同降维方法下所产生的不同维度数据集上的分类表现进行了分析。分析表明,利用合适的降维方法进行降维分类可以有效的提升分类的准确率;非线性降维方法的降维分类效果普遍好于线性降维;不同机器学习分类算法对于维度的敏感度有着显著的差异;降维分类可以在保持分类精度的同时大大减少模型训练的时间。
其他文献
随着城市化建设程度的加快,逐渐涌现出更多的建筑.同时也产生更多的建筑垃圾,建筑、资源与环保三者之间的矛盾日益突出。建筑建设不但需要大量的资源,同时在建设过程中也会形成大
为优化金属氧化物薄膜晶体管(IGZO-TFT)的特性,采用射频磁控溅射法沉积IGZO薄膜作为半导体活性层,制备出具有刻蚀阻挡层(Etch stop layer,ESL)结构的IGZO TFT,在2.5 G试验线上研
本文通过对我国北方几条高速公路的考察,并结合本省高等级公路建设与管理的实践,提出了高等级公路管理在运行机制、收费,养护,经营和筹资等几个方面的想法和建议。
目的探讨脾氨肽冻干粉治疗儿童反复呼吸道感染的临床疗效。方法选取2014年1月~2016年12月收治患反复呼吸道感染患儿124例作为研究对象,根据随机数字表法分为研究组和对照组,
表情符号系统是伴随着人们在网络空间中即时沟通与交流活动所应运而生的一项独特的网络应用方式,基于其辅助文字表达、使用方便、趣味性强方面的特征,而广受人们的欢迎和亲睐
我国大部分企业尤其是中小企业缺乏核心能力及核心技术,这是不争的事实。但比技术问题更严重的是管理问题。目前,制约我国企业健康发展和持续成长的主要内在因素是管理薄弱、滞
企业从事生产活动离不开资金的支持,电力企业由于自身行业的重要性和特殊性,必须确保企业资金的高效益运转。分析、总结电力企业资金管理中现存问题,并提出相应的解决措施,以
以干海子大桥第二联为原型,建立基于纤维单元的三维有限元简化模型,分析该钢管混凝土组合桁梁-格构墩轻型桥梁在地震作用下的响应特性,讨论进入非线性后桥墩屈服顺序和内力重
橡胶/粘土纳米复合材料(RCN)近几十年来得到广泛研究。与纯橡胶或炭黑填充弹性体相比,RCN具有许多优良性能,包括力学性能、耐热性、阻燃性及隔气性。对大多数这些性能而言,粘土
本文围绕自动交换光网络设备中以太网业务的运用与实现展开,首先简要说明了应用背景,接着介绍了EOS的关键技术,然后分析了自动交换光网络设备中,以太网业务盘的设计与实现过