论文部分内容阅读
现今时代是一个人工智能时代,机器学习作为其重要组成部分获得了巨大的发展,尤其是在有/无监督学习领域。然而随着计算机技术的快速发展以及社会需求的不断改变,产生了越来越多的新兴复杂应用场景,例如单一分类器无法适用所有场景、不同类别的数据量严重不平衡以及聚类形状复杂等。这给有/无监督算法提出了更高的要求,许多传统有/无监督算法在面对这些复杂的数据场景时,遭遇前所未有的挑战:1)在有监督学习领域,单一分类器的应用场景受限,而现有的集成学习方法对多样性考虑不充分、无法获得令人满意的分类效果;实际应用中的不同类别数据分布不平衡严重影响传统分类器的分类效果;2)在无监督学习领域,聚类中心没有实际意义、聚类个数无法提前设置且数据形状不规则影响聚类效果。针对上述挑战,本文主要聚焦有监督学习领域的集成学习和不平衡学习,以及无监督学习领域的聚类算法,并探讨相关算法的改进及应用,以期得到具有更优性能的分类算法和聚类算法。本文的主要研究成果如下:(1)提出了一种基于负一致性学习的集成支持向量机算法(Ensemble Support Vector Machine based on Negative Agreement Learning,ESVM-NAL)。该算法将负一致性学习作为一种显式多样性度量方法,利用整体学习策略训练整个集成模型及其子分类器,从而确保算法的准确性和多样性。理论分析表明,ESVM-NAL等价于另一个特征映射空间上的单个SVM,因此可以保证存在全局最优解,并可以方便地采用已有的单个SVM的训练方法进行训练,无需重新设计用于集成学习的特殊训练方法。(2)提出了一种动态更新拉普拉斯最小学习机算法(Laplacian Least Learning Machine with Dynamic Updating,L~2MM-DU)。首先利用拉普拉斯矩阵在传统成本敏感算法基础上加入样本之间的关系,并以此设计拉普拉斯最小学习机,从而在能够适用不平衡分类场景的同时继承了最小学习机的快速学习和良好泛化能力。然后采用增量学习的方式对拉普拉斯最小学习机进行改进,实现了动态更新模型找到最优的隐节点个数且无需重复计算逆矩阵,在保证不平衡分类性能的基础上,缩短了训练时间。(3)提出了一种基于密度的模糊代表点聚类算法(Density-based Fuzzy Exemplar Clustering,DFEC)。该算法结合了代表点聚类、密度聚类和模糊聚类的优点,无需提前设定聚类个数,且能够自动确定真实存在的聚类中心点,具有自适应性和可解释性。在聚类过程中,DFEC首先通过样本密度对每个样本成为候选聚类中心点的可能性进行预估,再利用模糊思想来确定聚类中心点并以此得到对样本的软划分,最终实现对样本的有效聚类。在人工数据集及UCI真实数据集的实验结果表明该算法较其他聚类算法有更好的自适应性和聚类准确性。(4)提出了一种基于中低层结合的图像感兴趣区域标注方法(Region of Interest Marked for Image by Low and Middle Level),对聚类算法在图像领域的应用进行了研究。该方法利用中低层次信息相结合的方式确保中低层信息相互补充,从而得到可靠结果。中层次显著图由改进的Harris角点形成的凸包区域与GBR(Graph-based Relaxed)超像素聚类结果相结合得到。低层次信息由不同权重的高斯差分滤波器对图像进行处理得到。最后通过加权融合两个层次显著图得到最终结果。利用微软亚洲研究院提供的公开数据库(MSRA)进行的实验表明该方法能有效消除背景噪声,准确且明显地定位显著度区域。