论文部分内容阅读
近年来,为了快速有效的提取出海量网络评论文本中的情感信息,文本情感分析技术受到国内外学者的广泛关注。文本情感分类作为文本情感分析研究中的重要组成部分,是一个极富挑战性的研究课题。该领域虽然取得一系列的进展,但仍存在许多问题。例如,在单语情感分类研究中,传统的有监督特征权重方案存在一些不足,不能准确的衡量特征项在文本中的权重值;在跨语言情感分类研究中,常用的单一文本表示方案存在不能全面表达文本内容的问题。因此,本文在研究如何提高文本情感分类性能时,针对以上提出的两个问题展开以下研究:单语情感分类研究中,传统的有监督特征权重计算方案往往只考虑特征项在文档中的局部分布和全局分布两个因子,而忽略特征项在不同类别间的分布对判定特征项的类别倾向的重要作用。因此,本文提出一种基于类别贡献度的权重计算方案。该方案通过使用后验概率量化特征项在不同类别间的分布规律,然后将该规律与特征项在单文档中的局部分布、以及特征项在文档集中的全局分布相结合,丰富权重值的信息量,克服传统权重计算方案的不足,提高文本情感分类的效果。实验结果表明,本文所提出的方案具有良好的性能表现,与一系列特征权重方案相比,本文所提出的方案能够显著提升分类性能。跨语言情感分类研究中,常用的文本表示方法是采用词袋(BOW)模型。在该模型中,词与词之间被认为是相对独立的,这将会忽略词语的次序和语法知识。这使得文本内容在转换为文档向量的过程中丢失部分语义信息;在使用Doc2Vec模型进行文本表示时,该模型以文本内容为维度,综合考虑文本的上下文信息得出文本的向量表示形式。因此,本文在进行文本表示时,采用BOW和Doc2Vec两种文本表示模型,弥补单一方法的不足,全面多角度的表示文本,使文本的语义信息得到最大限度的保留。在模型训练阶段,本文采用协同训练算法进行分类器训练,多文本表示的方案能够获得更多的语言视图,更好的发挥协同训练算法的优势。与其他几种跨语言方案的对比实验表明,本文所提出的方案能够明显提高分类性能。