论文部分内容阅读
近年来,多标签分类技术快速发展,但也面临着很多困难和挑战。首先,多标签分类的输出空间随着标签数量的增大会面临指数级的扩展。大多数研究者尝试挖掘标签之间的关系解决这一问题。因此,如何有效挖掘标签之间的关系成了一个研究课题。另外,多标签数据集中标签类别不均衡也给多标签分类问题带来了挑战。针对上述问题,本文的主要工作有:(1)针对经典多标签分类算法对多标签数据集中标签关系挖掘不充分的问题,分别基于LDA、BTM和WNTM主题建模方法提出了多标签分类框架LDA-ML、BTM-ML和WNTM-ML。三个框架在标签外设立隐式主题层来挖掘标签之间的关系,并将表示标签关系的主题加入特征丰富特征中的标签关系,提高经典多标签分类算法的分类效果。此外,还使用标签的词频信息增强关键标签的作用,提高建模后挖掘标签关系的效果。(2)针对多标签数据集中标签不均衡的应用场景,提出基于监督主题模型的多标签分类算法FAL。该算法通过监督主题模型建立特征和标签之间的关系,并通过特征的词频信息和每个样例中的标签个数更新建模时的狄利克雷先验,使其更符合特征的先验分布和样例的标签分布,最终提高算法对标签的分类效果。(3)针对多标签数据集中标签数量多,标签间关系复杂的应用场景,提出基于监督主题模型的多标签分类算法FNAL。该算法在训练阶段使用WNTM建立标签和隐式主题之间的关系模型。在预测阶段,FNAL用主题和标签建模时的采样信息更新测试示例中标签分布的狄利克雷先验,从而更准确的获取测试示例的标签分布先验信息,提高算法的分类效果。(4)针对中医诊断帕金森病的实际应用场景,结合前文提出的框架和算法给出解决方案。使用的数据集是由南京脑科医院提供的帕金森病中医量表转换而成。中医量表通过辩证方法采集病人的病症特征,每个病人对应一个主证型或者同时伴有一个主证型和一个次证型。本文通过将病症作为特征,证型作为标签,将中医诊断帕金森病问题转换为多标签分类问题。然后尝试用本文提出的多标签分类框架和多标签分类算法解决转换后的多标签分类问题。实验表明,本文提出的方法对由实际应用场景建模获得的帕金森数据集有较好的分类效果。