论文部分内容阅读
随着社交媒体和移动互联网的迅速发展,互联网中每天都在涌现大量的文本数据,如微博、短信息、产品评论、网页搜索片段以及新闻标题等。这些文本已经成为人们日常生活中重要的信息来源。它们通常以短文本的形式出现,特点是自身包含字数较少、表达形式丰富、数据规模较大。这些数据中蕴含着丰富的内容,包含人们的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域。短文本内容分析的研究目的是要快速、准确地从大规模数据中挖掘出主题信息,判别出短文本中人们所要表达的主观情感信息,在话题跟踪与发现、舆情预警等方面有着广泛的应用前景。 传统的文本内容分析方法通常采用向量空间模型表示文本,这种表示方法认为词语之间是无序的、互相独立的,不能有效地描述词语之间的语义关系。特别是处理短文本数据时,容易出现特征稀疏问题。近年来,随着深度学习在自然语言处理中广泛地应用,许多研究者们开始关注使用神经网络模型学习词语的分布式表示。在这种分布式表示方法中,词语之间的语义关系可以通过向量之间的相似度来表征,该表示方式为短文本内容分析的研究提供了新的思路。因此,本文将以词矢量作为特征输入,应用于短文本内容分析中。本文的主要工作如下: 1.提出一种利用卷积神经网络提取语句特征的短文本分类方法。在现有的特征集合中,大部分是基于字、词、Ngram等细颗粒度特征进行提取,缺乏语句层次方面的一个全局特征表示。神经网络模型能够通过多层非线性变换,对原始输入特征自动学习层次化的抽象表示。因此,本文利用卷积神经网络模型,通过卷积层和池化层提取语句层的全局特征表示,与现有的细颗粒度特征一起用于短文本的特征表示。相比仅使用细颗粒特征的方法,本文提出的方法在短文本分类中有着显著的性能提升。 2.提出一种基于概率语义分布的短文本分类方法。在词语的分布表示空间中,语义相似的词语在该空间中也是相近的。因此,本文利用词矢量的这一分布特性,提出了概率语义分布模型,利用不同的分布模型去描述各个领域内的词矢量分布情况,本文假设一条短文本产生于某一个概率语义分布模型。对于新的测试数据,计算来源于各个模型的概率,根据贝叶斯原理选择类别标签作为预测结果。同时,为了降低特征稀疏性,利用快速聚类算法对词矢量进行相似聚类,在词矢量空间中寻找词语的相似词,对短文本进行文本扩展。实验结果表明,本文提出的方法在短文本分类中明显优于传统的学习方法,并且取得了与基于神经网络模型方法相当的实验性能。 3.提出一种情感词矢量的训练方法。现有的词矢量大多是描述词语之间的语义关系,缺乏对词语情感极性信息的描述。例如单词“good”和“bad”在语义词矢量空间中是相近的,但是它们的情感极性却是相反的,直接使用语义词矢量不能区分词语的情感极性。本文在现有词矢量训练模型的基础上,通过修改目标函数进行有监督训练得到情感词矢量。为验证所得到的词矢量是否能够描述情感极性,本文在词语和短文本两个层次进行了实验。实验结果表明:一方面,所得到的情感词矢量能够区分词语的情感极性,并且情感极性相似的词语在词矢量空间分布中也是相近的;另一方面,将情感词矢量作为模型特征输入应用于短文本情感分析中,避免了传统情感分析方法中人工设计特征集合的过程,并且性能优于直接使用语义词矢量作为特征输入的方法。