论文部分内容阅读
实际应用领域涌现出大量的短文本数据流,如:微博数据、实时弹幕和实时评论等。其主要具有两大特点:一方面每个文本都十分短小,缺少充分的上下文语义信息;另一方面,随着时间推移,文本流快速海量涌现,且其类标签分布也在不断发生变化。上述特点导致在短文本数据流分类时出现信息稀疏、歧义、概念漂移等问题,使得传统的文本分类方法难以直接应用。因此,如何快速有效地处理海量实时的短文本数据流,成为实际应用领域数据流挖掘的重要而富有挑战的任务之一。基于此,本文开展了分布式短文本数据流分类方法研究,主要研究工作包括:(1)为了解决信息稀疏、歧义、概念漂移问题,提出一种基于Word2vec的分布式短文本数据流分类方法。该方法首先使用外部语料库构建Word2vec词向量模型完成短文本的向量化过程,通过丰富的语料信息以弥补短文本的信息不足,并获取训练过程中的罕见词构建扩展词向量库以降低词歧义的影响。其次,提出一种分布式Logistic Regression(LR)集成模型用于分类海量实时的短文本数据流,其中分类器参数能随数据流的到来而不断地实时更新。同时引入时间因子机制以适应概念漂移环境。最后,利用Apache Spark平台实现所提方法的分布式处理,在3个真实短文本数据流上的实验结果表明:与基准算法相比,所提方法具有更低时间代价消耗与更高的分类精度。(2)为了进一步提高短文本数据流分类的精度与时间性能,提出一种基于深度学习的分布式短文本数据流分类方法。不同于上述所提方法,该方法首先采用多粒度的短文本扩展,在词粒度上保留了上述所提方法的机制,即通过外部语料库构建Word2vec模型获取词与词之间的相关性以扩展短文本;为了进一步丰富短文本,考虑了句子粒度上语义信息,即利用CNN网络提取短文本中深层语义信息。其次,提出一种分布式弹性神经网络,能根据当前数据流的变化自扩展网络模型的深度。同时,设计了概念漂移检测器来检测数据流中隐含的概念漂移,以动态地调整网络中历史信息与输入信息对最终结果的影响。最后,利用Apache Spark平台实现所提方法的分布式处理,并在3个真实短文本数据流上的实验结果表明:所提方法比目前主流的短文本数据流分类算法具有更高的分类精度和更低的时间代价消耗,同时也优于上述所提的基于Word2vec的分布式短文本数据流分类方法。