论文部分内容阅读
随着大数据和人工智能时代的来临,机器学习也受到了进一步的推动,在机器学习领域,集成学习作为热点研究问题不但受到了广泛的关注,而且已经广泛的应用到了各个领域。生态环境音的识别研究有着重要的意义,它不仅可以提高我们对周围生态环境的认知,而且可以更好地保护生态环境和物种多样性。如何将集成学习应用到生态环境音识别领域来提高分类识别率是一个值得深入研究的问题。本文以两组生态环境音数据集EnAudio1和EnAudio2为研究对象,对7种不同的特征选择方法Correlation,GainRatio,InfoGain,OneR,ReliefF,SymmetricalUncert和约束分特征选择csFs方法、稳定性评估方法和分离度量方法进行研究,借助Matlab、Weka等软件进行了实验分析,本文的研究内容和结论主要有以下几点:(1)生态环境音数据特征选择。首先对声音信号进行预处理等一系列变换提取出MFCC、CELP、ΔMFCC和ΔΔMFCC特征值,然后利用不同的特征选择方法对数据集按照不同的比例进行特征提取,得出每种方法在决策树分类器上的分类准确率,进行了对比分析。然后对两组数据集用稳定性评估方法在决策树分类器上进行了对比实验,结果显示csFs方法和SU方法在生态环境音数据集上稳定性比较好的。此外,以决策树和朴素贝叶斯为分类器的分离性度量实验中,InfoGain和SU两种方法的效果最好。(2)基于子空间的集成分类。通过对子空间进行介绍,引入了基于特征子空间的集成,对特征子空间的划分方法进行了研究,并对独立特征子空间划分法、随机子空间划分法和权值分堆法进行了对比实验,并和Bagging算法的结果做了比较,结果表明,基于特征子空间的集成能够显著的提高生态环境音数据的分类识别率,且独立子空间的集成效果要优于权值分堆集成法和随机子空间集成法。(3)多模型特征选择集成的环境音分类。充分考虑了不同特征选择方法的差异性和多样性,通过将不同的特征选择方法选出的不同特征子集进行集成,以决策树为基分类器进行了实验,实验结果表明,集成特征选择的分类准确率并不一定高于单特征选择方法,但在大多数情况下,集成特征选择的分类准确率提高很显著,且结合了csFs方法的集成方法MmEnFs1要高出MmEnFs2近7%。