论文部分内容阅读
随着“互联网+”发展,与人们生活息息相关的多标签数据将会大量产生。由于多标签学习过程中需要考虑属性特征与多个标签、标签之间的相关性,从而使得多标签学习在分类和降维方面比单标签学习更为复杂、更具挑战性。自上世纪九十年代末多标签学习的概念提出以来,吸引了众多专家学者的关注。多标签学习的研究成果如雨后春笋,主要集中在分类和降维两个研究方向。数据降维是机器学习中的重要步骤,是提高数据分类性能的重要手段。本文提出了PCAI和MRF-mRMR两种数据降维算法。PCAI算法与原有算法相比,分类效果明显提升;MRF-mRMR算法在去除冗余属性特征的同时还能保持属性特征与标签之间的相关性。本文对多标签学习的研究可以分为两部分。第一部分提出了基于PCA算法的PCAI数据降维算法,并利用ML-kNN分类器对数据分类。首先,提出了信息容忍度的概念,并定义了其计算公式,同时对公式中的参数取值范围做了实验探讨;其次,得到数据降维后的特征值,并将特征值得应用到ML-kNN分类器中对距离的加权上;最后,将降维后的数据集应用到改进后的ML-kNN分类器中验证降维效果。第二部分讲述了Relief算法和mRMR算法,一方面对Relief算法中属性特征权重的计算方式进行改进,另一方面提出了MRF-mRMR组合特征选择算法。提出的MRF-mRMR算法既保持了mRMR算法最大相关和最小冗余的优势,又拥有Relief算法对每个属性特征加权排序的优点。实验结果表明,MRF-mRMR组合算法的降维效果明显优于已有算法。综上所述,本文提出了PCAI和MRF-mMMR两种降维算法,并以ML-kNN为分类器验证降维效果。实验结果表明,数据降维效果明显,且数据分类效果也有所提升。