论文部分内容阅读
摘要:在整个模式识别体系内,关于现实内的所有客观对象,系统均会在输入空间(属性空间)通过使用一个样本来描述这种对象的性质,而在输出空间(类标空间)中则采用类标来描述这种对象所具有的语义信息。而其中一种基于特异性特征的多标记学习方法LIFT尤为重要。
关键词:模式识别;类别属性;LIFT算法
一、LIFT算法的引入
在多標记学习算法中,不同的类标可能拥有他们自己独特的特征[1]。例如:当判断一个学生是计算机系的学生还是艺术系的学生时,可以通过像代码和艺术作品这类的特性就可以大致区别该学生的身份来;像这类特征就可以看作是对应类标下的特异性特征(label-specific features)。基于类标特异性特征的优点,国内也有很多研究者对此进行了研究。张教授等人在文献[2,3]中提出一种具有特异性特征的多标记学习算法(multi-label learning with Label Specific Features algorithm ,LIFT)。具体地说,该类算法借鉴了BR思想;首先,对于每一个类标,所有的训练样例都被划为正样例和负样例,其次再利用聚类分析技术来创造出对应的映射函数,进而形成特异性特征空间,再充分利用这些空间中的特异性特征来对测试样本的类标进行预测。
二、LIFT算法特点及其优缺点
LIFT算法充分考虑了在多标记学习过程中类标所具有的特点,寻求每个类标下的特异性特征。与以往的多标记学习算法不同,LIFT算法正是在上述思想的基础上,设计出相应的多标记学习算法。LIFT算法有很多优点,当然其也有很多方面的不足。LIFT算法的优缺点如下所述:
LIFT方法有如下几个优点,(1)简易性:这种算法是很简单的而且也容易去实现;LIFT算法仅仅需要去调准唯一的一个参数就可以得到理想的效果,而不像其他的一些算法通常要去同时调准好几个参数从而得到最佳的结果。(2)灵活性:根据简便而又有效的k均值(k-means)算法以及距离度量方法,可以灵活的生成类标特异性特征(label-specific features)。另外,可以通过任何的二类学习方法来诱导出分类模型,从而可以满足不同的需求(如决策树要求低的训练成本;规则学习则需要很好的可理解性)。(3)有效性:根据文献[2,3]中所得出的结果表明,与其他经典而达到很好效果的多标记学习算法相比,LIFT算法展示了优越的性能。然而,这种方法也有以下几个主要的缺点。
LIFT算法的缺点有(a)缺乏可解释性:即在初始的特征集合中不会明显的得知是哪些属性存在较强的判别能力;(b)LIFT算法在构建类标特异性特征的过程中,并没有充分考虑类标之间的关联性;(c)在LIFT算法所构建的特异性特征空间中存在大量的冗余特征,这些冗余特征严重地影响了分类器模型的架构,不仅会增加分类模型的复杂性,增大算法的运算量,甚至可能还会降低最终的判别精度。
三、LIFT算法结构流程及伪代码
由于LIFT算法具有既简单而又灵活的特性,使得在模式识别领域内,越来越多的研究人员在研究多标记学习模型时,采用LIFT算法的思想,即充分考察了特征空间的性质,在样本训练的过程中将样本的本质属性都考虑进去。在本章的第一小节中已经详细地介绍了LIFT算法的基本原理以及步骤,为了更加形象地表述LIFT算法,接下来给出LIFT算法的基本结构流程,如图1所示:
LIFT算法具有简易性、灵活性以及有效性的优点(已经在上述内容中具体阐述),在模式识别技术中的多标记学习模型中有着举足轻重的作用。LIFT算法的伪代码如下图2所示,也可见参考文献[2, 3]。
参考文献
[1] Lei W U, Ling Z M. Label-Specific Features on Multi-Label Learning Algorithm[J]. Journal of Software, 2014.
[2] Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific Features[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120.
[3] Zhang M L. LIFT: multi-label learning with label-specific features[CInternational Joint Conference on Artificial Intelligence. AAAI Press, 2011:1609-1614.
关键词:模式识别;类别属性;LIFT算法
一、LIFT算法的引入
在多標记学习算法中,不同的类标可能拥有他们自己独特的特征[1]。例如:当判断一个学生是计算机系的学生还是艺术系的学生时,可以通过像代码和艺术作品这类的特性就可以大致区别该学生的身份来;像这类特征就可以看作是对应类标下的特异性特征(label-specific features)。基于类标特异性特征的优点,国内也有很多研究者对此进行了研究。张教授等人在文献[2,3]中提出一种具有特异性特征的多标记学习算法(multi-label learning with Label Specific Features algorithm ,LIFT)。具体地说,该类算法借鉴了BR思想;首先,对于每一个类标,所有的训练样例都被划为正样例和负样例,其次再利用聚类分析技术来创造出对应的映射函数,进而形成特异性特征空间,再充分利用这些空间中的特异性特征来对测试样本的类标进行预测。
二、LIFT算法特点及其优缺点
LIFT算法充分考虑了在多标记学习过程中类标所具有的特点,寻求每个类标下的特异性特征。与以往的多标记学习算法不同,LIFT算法正是在上述思想的基础上,设计出相应的多标记学习算法。LIFT算法有很多优点,当然其也有很多方面的不足。LIFT算法的优缺点如下所述:
LIFT方法有如下几个优点,(1)简易性:这种算法是很简单的而且也容易去实现;LIFT算法仅仅需要去调准唯一的一个参数就可以得到理想的效果,而不像其他的一些算法通常要去同时调准好几个参数从而得到最佳的结果。(2)灵活性:根据简便而又有效的k均值(k-means)算法以及距离度量方法,可以灵活的生成类标特异性特征(label-specific features)。另外,可以通过任何的二类学习方法来诱导出分类模型,从而可以满足不同的需求(如决策树要求低的训练成本;规则学习则需要很好的可理解性)。(3)有效性:根据文献[2,3]中所得出的结果表明,与其他经典而达到很好效果的多标记学习算法相比,LIFT算法展示了优越的性能。然而,这种方法也有以下几个主要的缺点。
LIFT算法的缺点有(a)缺乏可解释性:即在初始的特征集合中不会明显的得知是哪些属性存在较强的判别能力;(b)LIFT算法在构建类标特异性特征的过程中,并没有充分考虑类标之间的关联性;(c)在LIFT算法所构建的特异性特征空间中存在大量的冗余特征,这些冗余特征严重地影响了分类器模型的架构,不仅会增加分类模型的复杂性,增大算法的运算量,甚至可能还会降低最终的判别精度。
三、LIFT算法结构流程及伪代码
由于LIFT算法具有既简单而又灵活的特性,使得在模式识别领域内,越来越多的研究人员在研究多标记学习模型时,采用LIFT算法的思想,即充分考察了特征空间的性质,在样本训练的过程中将样本的本质属性都考虑进去。在本章的第一小节中已经详细地介绍了LIFT算法的基本原理以及步骤,为了更加形象地表述LIFT算法,接下来给出LIFT算法的基本结构流程,如图1所示:
LIFT算法具有简易性、灵活性以及有效性的优点(已经在上述内容中具体阐述),在模式识别技术中的多标记学习模型中有着举足轻重的作用。LIFT算法的伪代码如下图2所示,也可见参考文献[2, 3]。
参考文献
[1] Lei W U, Ling Z M. Label-Specific Features on Multi-Label Learning Algorithm[J]. Journal of Software, 2014.
[2] Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific Features[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120.
[3] Zhang M L. LIFT: multi-label learning with label-specific features[CInternational Joint Conference on Artificial Intelligence. AAAI Press, 2011:1609-1614.