【摘 要】
:
机器学习技术已经成功应用在社会生活的各个方面。如手写汉字识别,人脸识别,网络入侵检测等。由于机器学习在应用中取得巨大成就。因此许多研究者都开展了对机器学习的研究。
论文部分内容阅读
机器学习技术已经成功应用在社会生活的各个方面。如手写汉字识别,人脸识别,网络入侵检测等。由于机器学习在应用中取得巨大成就。因此许多研究者都开展了对机器学习的研究。其中集成学习是机器学习研究方面的一个重要研究方向。研究表明集成学习能明显提高机器学习系统的泛化能力。由于集成学习利用多个分类器进行学习,需要更大的计算量。然而,随着个体分类器的增多,个体分类器之间的差异度就越小,集成学习的精确度反而下降。南京大学周志华教授提出选择性集成学习的概念。就是从生成的个体分类器中选择一部分再集成。实验表明效果比原集成要好。差异度是集成学习中的一个重要概念。一个好的集成学习算法,关键是能生成差异度大的个体分类器。至今,研究者已提出十种差异度度量方式。由于Q统计量在实验中效果不错,因此本文采用Q统计量度量两个分类器之间的差异度。提出一种采用Q统计量的选择性集成学习算法。由于Weka平台是当今最流行的机器学习平台。它提供了多种机器学习算法,以及对实验结果的评估等工具。因此本文的实验全部基于Weka平台实现。同时为了使用Weka平台的强大功能,把算法集成到Weka平台。最后本文还对算法存在的问题进行说明和展望,便于今后进一步进行研究。概括的说,本文主要包含几个方面的内容:(1)概述选择性集成学习国内外研究的现状、背景和意义。包括选择性集成学习的起源、定义、主要技术,和集成学习中流行的差异度。同时也介绍了开源的机器学习平台Weka。(2)从差异度的角度出发,提出一种新的选择性集成学习方法。该方法采用了流行的Q统计量。为了证明算法的有效性,采用决策树作为基分类器。采用UCI数据集做实验,实验表明该算法不仅能降低分类器的个数,而且也能提高集成学习的泛化能力。(3)为了方便和高效的使用算法,最后把QSE算法集成到’Weka平台中。这样不仅有利于本算法的推广,也能与更多的机器学习的研究者进行交流和学习。
其他文献
在康复医疗领域,现在主要以人工和机器人辅助训练两种康复方法,人工辅助训练是康复教练一对一的对病患进行康复训练的指导,但现实中往往医疗资源匮乏,机器人辅助方式又会有造
随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应
数据挖掘的提出和发展是最近十几年的事情,不过现实的需要使得其发展速度非常迅速。数据挖掘技术是通过计算机技术,在多个学科的知识和技术基础上,从大量的实际数据中,分析挖
PLC(Programmable Logic Controller)是一种工业自动控制设备。PLC运行语句表,然后利用I/O装置的输出电压信号控制外部机械或设备的操作。PLC具有适应面广、使用方便、可靠性高、抗干扰能力强、编程简单等特点。软件PLC提供了与硬PLC相同的功能。软PLC也提供了PC环境特有的各种优点。软PLC是一种基于PC机开发结构的控制系统。它具有在功能、可靠性、速度、故障查找等方
张铃教授和张钹院士在深入剖析了人工神经网络的机理后,提出构造性学习理论和方法,获得了成功。构造性机器学习方法是利用球形映射将神经元变换成对有限空间划分的分类器,正
近年来,随着计算机科技的迅猛发展,计算机科技中的各种新技术、新理论、新算法不断涌现,涉及范围越来越广,作为图像的识别、运算与处理基础的图像配准技术也在快速发展中。对两幅
基于属性-值的学习方法的命题化算法是关联规则挖掘算法的的传统方法,即,每一个事实都以的(属性,值)元组形式表示。这种表示形式中,属性种类是固定的,每个属性有一个给定的值
在信息互联网高度发达的今天,解决信息过载问题已经成为互联网技术发展的方向之一。如何从网络海量信息中获取有价值的信息是研究信息过载问题的关键,而个性化推荐作为解决此
当今世界纷繁复杂,各种场合对安全的需求也越来越高。安全、有效、唯一等等得天独厚的优势使得生物特征识别技术逐渐被人们所重视。而根据人行走方式的不同来进行身份识别的
由于互联网技术和云服务的发展,网民数量不断增长,使得各种信息也呈现爆炸式的增长。在这样的趋势下,传统的存储服务已经满足不了现在用户的需求。不管是企业还是个人都需要