论文部分内容阅读
Web 2.0的飞速发展使得人们在社交媒体中的参与度不断提高,随之产生的各种携带用户观点和情感的结构化与非结构化信息为研究者们提供了大量可研究的资源,对其进行情感分类可在舆情风险分析和商品销售等领域的发展中产生极大价值。文本情感分类通常包括主客观信息分类和主观情感极性分类,本文从后者入手进行研究。而目前,在情感分类研究领域拥有不错表现的方法包括传统机器学习方法中的支持向量机算法,以及近年来慢慢兴起并成为研究热点的基于深度学习的分类方法。若能将它们进行组合,充分利用各自的优势,将有利于分类性能的进一步提升。基于此,本文构建了一个基于stacking组合的文本情感分类模型,其具体工作如下:首先,目前用于情感分类任务的开放语料资源相对匮乏,加之近年Web 2.0环境下互联网中的语言变得愈加新颖而独特,为此,本文整理了较为研究者们所认可的传统语料的同时,收集了来自于某第三方点评网站的评论语料,尔后组织人员对其进行标注验证并对检验方法的合理性予以论证,从而构建出本文实验的样本集。其次,支持向量机算法在文本情感分类领域中因其独特的分类机制而在传统机器学习方法中更胜一筹,本文在原生的支持向量机模型基础上稍作改动,使其具有更强的适应性。一方面,针对目前互联网中网络用语、表情符、错别字等现象频出的状况,本文单独处理表情符,将其作为一般特征看待,收集并构建情感词集和网络语词集作为用户词典,指导分词过程以提高其分词精度。另一方面,在特征选择与加权上也做出相应调整以优化特征处理效率。最后,支持向量机因其独特的分类机制而获得突出表现,但拥有传统机器学习方法的固有瓶颈;卷积神经网络可学习出文本局部特征,但无法找到序列之间的相互联系;循环神经网络可建立起优秀的线性模型,但无法以并行的方式提取特征。于是本文将它们作为基分类器进行组合,采用stacking方法构建出一个情感分类模型。其中,词向量采用wordembedding,而元分类器则采用支持向量机。随后,本文实现了 voting组合方法与各基分类器共同对该模型进行评价。