面向大规模学习问题的特征提取方法的探讨

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wei71
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习的目的是为了解决规模比较庞大,系统比较复杂的问题,因此如何挖掘及处理在大量数据中隐藏的潜在相关信息,从纷繁复杂的表象中提取出事物的本质特征愈显重要,并越来越受到众多研究者的重视。长期以来,特征提取的焦点主要集中在怎样可以用较少的数据精炼地表示事物之间的区别,这样特征提取问题从某种程度上来说就归结为降低特征的维数问题。从分类器的运行性能角度出发,往往根据所选取的不同特征以及不同数量而对分类结果产生不同程度的差异为标准来构造分类器。由此可见,特征提取在分类过程中起着重要作用。所有的特征提取算法的主要目的都是为了降低计算的复杂性并且通过剔除弱相关或者冗余特征分量来改进分类器的设计和效果。 本文介绍主成分分析和独立成分分析两种常用的特征提取方法,并针对手写数字字符识别中由于书写习惯和风格的不同,造成字符模式不稳定的问题,对重建模型的误差分析进行字符识别;最后通过对美国国家邮政局USPS字库中全部数字字符完整的识别实验,证实了算法稳健性和准确性。
其他文献
软件估算是有半个世纪发展历史的计算机科学领域的一个巨大挑战,因为软件估算涉及到软件项目的成本和计划。开发人员需要能够获得基于他们自己的程序得到的包含了工作量估算的
纳税评估是一项国际通用的税收管理制度,建立纳税评估预警模型主要是为了能够有效地选取有涉税问题的纳税人,为纳税评估工作提供指导作用。我国对纳税评估预警模型的研究目前还
学位
随着软件应用范围的不断扩大和复杂程度的不断提高,软件开发过程越来越难以控制,软件质量也越来越难以保障。质量管理的思想和理念,已经从单纯的以面向软件产品的检验为主要手段
高效节能定位算法的研究对无线传感器网络的理论研究和实际应用有重要意义。定位算法通常分为range-based和range-free两大类。Range-based定位算法对定位器件的硬件要求高,
模型检测是一种检测有限状态并发系统的自动化检测技术。它是检测系统模型是否满足系统规约。模型检测在硬件和通讯协议的分析与验证中已经取得了很大的成功,如何将这一技术应
随着信息技术的发展,出现了大量的数据流应用,如传感器数据处理、网络监控、金融数据分析等。在这些应用中,数据是一种连续、时变、有序、无限的序列,查询大多数都是采用连续查询
非真实感绘制(Non-Photoreal istic Rendering,NPR)从20世纪90年代中期开始逐渐成为计算机图形学的一个研究热点,是计算机技术和绘画艺术相结合的一个研究领域,主要目的不是利用
学位
近年来,随着P2P流媒体技术在互联网中的快速发展,以及很多基于P2P流媒体技术的商业模式系统的出现,P2P流媒体直播系统更是迅速崛起,成为了一大热点。然而,在P2P技术呈现爆发
随着科技的不断发展,网络电话、视频会议、多媒体传输等新的网络业务不断涌现,网络业务的复杂性和突发性越来越明显,对网络性能的要求越来越高。网络流量是流量预测和网络性能评
P2P(Peer—to—Peer)即点对点网络是随着网络的普及以及追求网络信息资源的有效利用而产生的网络计算结构。P2P网络中的节点是对等的,且可以同时作为服务器节点和客户端节点。