论文部分内容阅读
互联网技术的快速发展,出现了博客、微博、论坛和新闻网站等大量的以文本为载体的数字媒体,如何利用这些信息对用户行为进行分析、对用户推荐内容及对用户提供服务等是十分重要且价值巨大的研究,因而自动文本分类作为一种基础的文本任务成为了人们研究的热点。其中比较重要的研究是关于学习好的文本表示和建立适用性广泛的模型的研究。本文基于对文本语义和文本序列信息的深度研究,提出了多粒度文本学习方法和适用于不同长度文本的通用文本表示模型,并基于此提出了新的句子和文档分类模型。在文本语义学习方面,本文基于词向量学习原理深度分析了词向量所编码的分布式信息的本质含义,即一种包括语义、语法、语用和词性等一般语言特征的综合编码,并且词向量的这种特性与学习模型、数据集和维度无关;同时,在进一步分析词向量学习和文本任务的相关性基础上,通过文本分类实验证明将词向量学习和文本分类任务共同优化可以帮助提升文本分类任务的效果。在文本序列信息方面,在词和句子两种粒度下分析了文本序列信息的本质;词级顺序性反映了句子的句法、语法等信息,句子级的顺序性反映了文章的行文逻辑;同时从全局序列信息学习和局部序列信息学习两个方面研究了序列信息的学习方法。在文本表示方面,提出了多粒度文本学习方法和监督通用文本表示模型。在文本分类上,基于通用文本表示模型提出了两个句子分类模型:LSTM-WSM和CNN-WSM,并在句子分类任务上取得了良好的效果;同时,提出了两个基于句子和文档双层表示学习的文档分类模型:独立双层文本分类模型(IBLM)和独立递增表示和预测模型(IIRPM)。最终本文提出的文档分类模型IBLM和IIRPM在复旦新闻数据集上测试的准确率分别为94.7%和95.8%,其中95.8%是目前的最优效果;在20Newsgroups数据集上的测试准确率为74%和73.1%,其中74%是目前的最优效果。但在句子分类任务上本文提出的句子分类模型效果并没有超过最佳效果,接下来我们将探索更多文本语义和序列信息学习模型,以期取得更佳的效果。