论文部分内容阅读
分类问题,如垃圾邮件检测、疾病自动诊断、信用卡诈骗识别等,是机器学习领域的核心基础问题。现有分类方法通常设计一个参数化模型(如深度神经网络)建模数据中特征到标签的映射关系,并使用相应的标注数据训练模型以学习该映射关系。为保证模型的分类性能,这类监督学习方法要求数据的信息是充分、准确、明确的。然而,随着互联网的发展和社交媒体应用的普及,数据规模虽呈现指数式增长,但很大一部分数据是不完备的,其不完备性主要表现为特征层面的稀疏、缺失、损坏等,和监督信息层面的不完全、不准确、不明确等。不完备数据的复杂性和多样性为其分类带来了诸多严峻挑战,如何基于这些不完备数据学习分类模型是当前机器学习领域研究的热点之一。本文围绕数据中稀疏特征、不完全监督信息及不明确监督信息三种典型的不完备信息,研究不完备数据分类中三个热点问题:短文本分类、半监督学习和偏标记学习,出了多种高准确率的不完备数据分类方法。具体工作内容如下:1.短文本数据是一类典型的包含稀疏特征的不完备数据。主流的基于词袋模型的短文本分类方法,因词项稀疏和忽视单词语义知识,存在文本相似度失调问题。为解决该问题,本文基于词移距离(Word Mover’s Distance,WMD)和词嵌入技术,出了两种改进的短文本分类和建模方法:(1)出了基于正则化WMD(Regularized WMD)和假设间隔的短文本重心分类方法RWMD-CC,并分析了其泛化误差上界和时间复杂度。RWMD-CC使用度量文本语义距离的RWMD,以解决短文本中相似度失调问题;并基于RWMD和假设间隔为每个类别学习一个语义重心,将测试时间复杂度降到了线性于类别数量。实验结果表明,RWMD-CC有效升了短文本分类效果,且测试耗时显著低于现有基于WMD的方法。(2)出了语义指导的Wasserstein学习模型SAWL,并分析了其重构误差的泛化上界。为在主题建模过程中引入单词语义关系,SAWL使用基于词嵌入向量的正则化Wasserstein距离损失结合NMF(Non-negative Matrix Factorization)思想建模文本;同时融入了词项PPMI(Positive Pointwise Mutual Information)矩阵分解学习词嵌入向量,以炼语料库特有语义知识。SAWL同时适用于短文本和传统的长文本数据。实验结果表明,SAWL有效高了主题建模的主题质量和分类效果,及学习的词嵌入向量的质量。2.半监督学习主要研究如何从包含不完全监督信息的不完备数据中学习分类模型。本文关注两种重要的半监督学习问题:半监督文本分类,及正样本和无标注样本(Positive and Unlabeled,PU)学习,并针对其伪标注样本置信度较低问题,出了两种改进方法:(1)出了基于平衡深度表示分布的半监督文本分类方法S~2TC-BDD。深度自训练方法是一种主流的半监督文本分类方法,然而因半监督文本分类场景下各类别表示分布方差差异过大引发的间隔偏差问题,这类方法中无标注文本预测伪标签的精确度通常较低。为解决该问题,S~2TC-BDD设计了一组高斯线性变换,并将其融入角度间隔损失中,用于约束各类别深度表示分布是平衡的。实验结果表明,S~2TC-BDD有效升了半监督场景下文本分类效果,且当标注文本非常稀少时其性能升更加显著。(2)出了基于启发式mixup技术的PU学习方法P~3Mix。在早期实验中发现,PU学习存在分类决策面偏离现象——分类决策面通常偏离真实决策面且偏向于正类一侧,其根源在于两个决策面间的边缘伪负样本的不正确监督信息对模型训练的负面影响。P~3Mix为边缘伪负样本设计了一种启发式mixup伙伴样本选择策略,以改进其中不正确的监督信息。出的启发式mixup技术是易于实现的,并且可以同时实现数据增强和监督信息校正。实验结果表明,P~3Mix的分类效果一致地优于对比的PU学习方法。3.偏标记学习的目标是从一类包含不明确监督信息的不完备数据——偏标记数据中学习分类模型。消歧方法是现今主流的偏标记学习方法之一,但它们近似的标签置信度的精确度较低。为解决该问题,本文出了两种改进的消歧偏标记学习方法:(1)出了基于全局和局部一致性的消歧偏标记学习方法PANGOLIN。为更加有效地约束标签置信度以高其近似精确度,PANGOLIN结合标签原型和流形约束设计了一种特征空间全局一致性约束,并进一步融合了基于偏标记样本不相似关系的标签空间局部一致性。实验结果表明,PANGOLIN的分类效果显著优于对比的偏标记学习方法。(2)出了基于候选样本鉴别的偏标记学习方法A~2L~2CID。受生成对抗网络启发,A~2L~2CID设计了一种样本为轴的消歧策略:将每个偏标记样本划分为一组候选样本,利用判别器识别伪候选样本,并在分类器的训练中不使用这些识别出的伪候选样本。基于Triple-GAN框架和出的互补学习策略,A~2L~2CID协同地训练判别器和分类器,使其在训练过程中可以相互促进。理论分析证明A~2L~2CID存在全局最优均衡点。实验结果表明,A~2L~2CID有效升了分类效果,且在类别较多的数据集上其效果升更加显著。