论文部分内容阅读
多标记学习的问题源自于文本分类,随着近十年的发展,目前对于多标记学习的研究已经成为了机器学习的新热点。以前,一件物品、一副图片、一篇文档,经常表现为固定的、单一的概念标记。但随着互联网产生的数据量爆炸性增长,在现实生活中,一个样本往往可以表现出多个概念标记,且具有多义性;这将导致传统的单标记分类算法已经不能满足于现在的需求。自此,多标记学习的框架开始被提出。多标记学习是解决复杂问题的有效框架,其表现形式为多示例多标记,该模型可以更好地与现实场景相吻合。近些年,对于多标记学习的研究重点旨在提高分类的精度和算法的运行效率,往往没有考虑到多标记数据集本身的冗余特征或者是次要特征。并且在主流的多标记特征选择算法中,大多数学者是通过计算特征与标记之间的信息熵,并用熵来度量特征与标记之间的相关性。然而这些方法大多不具有补的性质且计算复杂,而且这些非重要特征往往制约着一个多标记分类算法的性能。与此同时,在文本分类领域中,面对高维度样本的局限性以及处在边界文本分类的问题,同样也制约着分类器的分类效率。针对上述问题,本文的研究工作主要包括:(1)针对多标记学习存在的问题,根据粗集粗糙熵的思想构造出正域粗糙熵,用正域粗糙熵来衡量特征与标记之间的相关程度。通过对每一个特征和标记划分子空间,按照一定的采样比来选取重要特征。基于正域粗糙熵的思想恰好填补了传统信息熵的不足。这在一定程度上使选取的特征更加合理,也减少了数据集的维度空间。(2)进一步研究了多标记在文本分类中的应用,结合三支决策最小风险代价理论提出了一种新的、有效的kNN文本分类算法。根据最小风险代价损失理论设定风险损失值,并找到处于边界域的文档集合。文中重新定义了隶属度,对于处在边界域的文章使用隶属度来进一步分类,这种方法大大提升了kNN分类器的性能。