论文部分内容阅读
随着计算机技术飞速发展及广泛应用,数据收集手段日渐完善,医学,经济学,生物信息学等领域与计算机领域的相互渗透,真实世界涉及的数据规模持续膨胀。当前利用计算机技术处理数据的过程中,可能出现的困难诸如:数据量远超计算设备的内存容量,数据样本的特征众多而缺乏合理的语义解释,数据空间分布呈稀疏性、无规律性等。用诸如回归分析、贝叶斯决策等单一的传统统计分析的方法分析处理高维数据愈发困难。如何从大量复杂的数据中挖掘出有效信息,进而合理设计机器学习方案是极具现实意义的难题。为了更好地学习复杂、稀疏的高维数据,机器学习任务可以从两个方面着手:一是降低高维度数据的特征维度,常用手段有基于特征选择的方法和基于特征映射的方法;二是融合多种学习器以便从不同视角分析数据,即集成学习方法。本文的主要工作是探索融合特征选择与集成学习方法以应对复杂数据的分类问题的方法,具体从特征选择与集成学习融合的两种思路展开研究:其一是利用随机化的特征选择(随机约简)得到多个有差异的特征子集、分类器对,进而对其集成。鉴于一些确定性的分类模型(如朴素贝叶斯模型,最近邻分类模型等)无法由相同的数据训练产生不同的训练结果,即无法满足个体分类器的差异性要求。在随机化的多次特征选择后可以在原始数据的基础上得到多组有差异的数据,从而与确定性分类模型结合可以构成满足集成学习差异性要求的个体分类器。换言之,随机化特征选择提供了一种利用确定性分类器进行集成分类的可行方案。在此基础上,本文提出了一种基于邻域决策随机化约简的邻域分类器集成策略,首先在启发式求解约简的过程中,通过放宽属性选择的条件,从而在一定范围内利用随机选择的方法获取多个能够降低邻域决策错误率的属性子集,然后借助这些属性子集在对应邻域分类器上得到的结果进行投票集成,得到最终的分类类别。在12个UCI数据集上的实验结果表明,所提出的基于属性约简的集成邻域分类策略不仅能够有效地提升邻域分类器的分类精度,而且亦能增强邻域分类结果的鲁棒性。这一研究为从集成的视角研究粗糙集理论提供了技术支持。其二是利用特征选择提高集成分类模型中个体分类器的分类准确度从而使集成分类结果的准确度提高。由于数据的原始特征中可能存在使分类能力变差的冗余特征,通过特征选择的方式排除冗余特征可以在特定分类器上获得比用原始特征集合更好的分类性能。在此基础上,本文提出了一种错误率最小化的极限学习机集成策略。在经典的极限学习机投集成分类模型中,对每个个体分类器利用Wrapper方法进行特征选择,分别用降低泛化误差和降低经验误差作为特征选择的依据,得到使对应极限学习机误差降低的特征子集,并与原有个体分类器组合成新的个体分类器。在6个UCI数据集上的实验结果表明,所提出的错误率最小化的极限学习机集成策略较之原始的极限学习机投票集成模型,同等参数下分类能力略有提升。此外,本文基于上述提出的极限学习机集成分类策略,在蛋白质二级结构预测的具体问题上展开应用,提出了一种可行的预测方法。