论文部分内容阅读
集成学习是机器学习领域中的研究热点问题,其通过组合多个学习器来解决一个问题。对比普通的机器学习算法在训练数据上生成一个学习器,集成学习生成一组学习器并通过各类方式组合它们,从而取得比单个学习器更好的泛化能力及分类准确性。而在提高集成学习准确性方面,由于集成分类器各分类器的多样性与准确性之间存在一定关系。因此,深入研究准确性同多样性之间的关系,并通过增强多样性来提升分类器准确性则变得至关重要。本文以随机决策树(Random Decision Trees, RDT)为基分类器,因RDT作为不稳定分类器,集成之后较之单个分类器提升效果明显,且RDT本身的随机性也增加了多样性。此外,分别利用半监督学习算法Tri-training及新的集成策略BLB(Bag of Little Bootstrap),并对比其他集成策略进行实验。之后,使用多样性度量方法及准确性评价方法,对结果进行汇总分析。在各实验基础上,利用微信公众平台,采用众包策略,以航海语料库作为实验数据集进行文本分类,请用户参与文章的人工分类来获取反馈,利用用户的不同分类来产生多样性,通过真实的众包来实现集成学习,并对反馈结果进行分析研究,并使用特征选择和选择性集成来改进之前的两种算法。本文具体的工作包括:(1)本文使用Tri-training半监督学习算法,以RDT作为基分类器进行迭代训练,最后得出集成分类器。该算法利用半监督学习的特点,通过使用已标记样本训练出的三个初始分类器互相标注未标记样本,改良各基分类器,同时利用未标记样本增加了分类器的多样性,即增强了各基分类器间的差异。该实验分别在UCI上的不同规模的10组小数据集以及5组中等规模数据集进行实验,并选取经典集成学习算法Bagging和Adaboost作为对比实验,采用10倍交叉验证方法来获取平均测试准确率及DF, KW和MTI等多种多样性度量值,分析准确性与多样性两者之间存在的关系。实验结果证明,多样性的适度增强确实可以提升准确性。(2)本文采用BLB作为新的集成策略来进行多样性研究。由于其融合了Bootstrap和二次抽样的特点,通过扰动训练集的方式增加了多样性。同样以RDT作为基分类器,在UCI上不同的中小规模数据集进行实验。并利用实验结果分析准确性与多样性的关系。实验结果证明,BLB的确比同样利用Bootstrap的Bagging算法在多数数据集上的准确性有所提高,从另一侧面反映出多样性增强对准确性提高的作用。(3)最后本文借助微信公众平台,采用众包策略,相比传统人工分类成本高,难获得,采用众包策略的微信平台人工分类具有成本低,获取便捷等优势。选取航海语料库中被前述两种集成算法分类错误的文章,通过用户对文章不同的人工分类结果来产生多样性,利用该结果进行分析研究,并使用特征选择和选择性集成等方法对之前两种算法进行了改进。实验证明,改进后的算法准确性有明显提升。