论文部分内容阅读
社交网络等领域产生了海量的短文本数据流,一方面,由于短文本自身长度短,语义信息不足,带来文本的高维稀疏问题,同时流环境下的短文本数据又隐含概念漂移等特点,导致传统的文本分类方法难以直接应用。另一方面,随着短文本数据的快速产生,人工标注所有短文本数据不仅费时费力,且几乎是不可能完成,因此,如何在少量的有标签短文本数据的情况下,充分利用丰富的无标签短文本数据提升分类精度也是一大挑战。针对以上问题,本文对短文本数据流分类算法进行了研究,其主要工作如下:(1)概述已有的短文本分类的相关工作,包括:有监督短文本与短文本数据流分类方法、半监督短文本分类方法以及半监督数据流分类方法。(2)针对短文本数据流存在的特征高维稀疏以及概念漂移问题,提出一种基于文本扩展和概念漂移检测的短文本数据流分类算法。该方法首先从Wikipedia获取外部语料用于扩展短文本,同时借助在线BTM模型(Online Biterm Topic Model)选择代表性主题表示短文本,从而解决短文本的高维稀疏问题;其次,为检测短文本数据流中的概念漂移问题,提出一种基于主题的概念漂移检测算法;最后,该方法基于数据块构建集成模型,同时根据概念漂移检测结果利用当前数据块更新集成模型。实验结果表明:该方法在短文本数据流分类精度上表现优异,所提的概念漂移检测算法具有良好的检测性能。(3)针对大量类标签数据缺失问题,提出一种基于标签传播的半监督短文本数据流分类算法。首先,从Wikipedia中获取外部语料,并借助Word2Vec模型训练获得原始词向量集合用于短文本数据的向量化表示,以解决短文本数据流的特征高维稀疏问题。其次,分别针对有标签和无标签数据构建分类器与聚类器形成集成模型,并采用基于簇相似度的方法传递聚类簇间的标签信息为其打上标签。同时,为了适应概念漂移,提出一种基于聚类簇的概念漂移检测机制。实验结果表明该方法能有效处理带缺失标签和概念漂移的短文本数据流分类问题。