基于stacking组合的文本情感分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:kona
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web 2.0的飞速发展使得人们在社交媒体中的参与度不断提高,随之产生的各种携带用户观点和情感的结构化与非结构化信息为研究者们提供了大量可研究的资源,对其进行情感分类可在舆情风险分析和商品销售等领域的发展中产生极大价值。文本情感分类通常包括主客观信息分类和主观情感极性分类,本文从后者入手进行研究。而目前,在情感分类研究领域拥有不错表现的方法包括传统机器学习方法中的支持向量机算法,以及近年来慢慢兴起并成为研究热点的基于深度学习的分类方法。若能将它们进行组合,充分利用各自的优势,将有利于分类性能的进一步提升。基于此,本文构建了一个基于stacking组合的文本情感分类模型,其具体工作如下:首先,目前用于情感分类任务的开放语料资源相对匮乏,加之近年Web 2.0环境下互联网中的语言变得愈加新颖而独特,为此,本文整理了较为研究者们所认可的传统语料的同时,收集了来自于某第三方点评网站的评论语料,尔后组织人员对其进行标注验证并对检验方法的合理性予以论证,从而构建出本文实验的样本集。其次,支持向量机算法在文本情感分类领域中因其独特的分类机制而在传统机器学习方法中更胜一筹,本文在原生的支持向量机模型基础上稍作改动,使其具有更强的适应性。一方面,针对目前互联网中网络用语、表情符、错别字等现象频出的状况,本文单独处理表情符,将其作为一般特征看待,收集并构建情感词集和网络语词集作为用户词典,指导分词过程以提高其分词精度。另一方面,在特征选择与加权上也做出相应调整以优化特征处理效率。最后,支持向量机因其独特的分类机制而获得突出表现,但拥有传统机器学习方法的固有瓶颈;卷积神经网络可学习出文本局部特征,但无法找到序列之间的相互联系;循环神经网络可建立起优秀的线性模型,但无法以并行的方式提取特征。于是本文将它们作为基分类器进行组合,采用stacking方法构建出一个情感分类模型。其中,词向量采用wordembedding,而元分类器则采用支持向量机。随后,本文实现了 voting组合方法与各基分类器共同对该模型进行评价。
其他文献
随着信息技术和经济的快速发展,道路网不仅在其规模方面越来越大,同时其复杂程度也越来越高。在道路网中,最优路径的求解过程,往往只简单考虑了道路数据和道路网的特性而不是
图像缩放是数字图像处理领域中一个研究热点。其算法主要有插值算法和保持内容算法。插值算法又有最近邻域、双线性、双三次和基于边缘插值算法,目前大部分移动终端都应用该方
随着计算机技术的快速发展,对数据进行深度分析的需求逐渐增多,数据挖掘技术的应用越来越广泛。结合我国实际,针对教育部规定的高校评估指标体系中的生均教学行政用房面积指标是
学位
摄像机标定是进行立体视觉研究的重要组成部分,是计算机视觉获取三维空间信息的前提和基础,在计算机视觉、摄影测量、三维重建等图像应用领域有着广泛的应用。标定结果的好坏
在技术不断变革的今天,越来越多的数据被生产出来。如何从庞杂的数据中发现有趣或有价值的内容成为目前学术界和工业界最为关注的问题。其中频繁模式挖掘因其能有效地挖掘出
智能交通系统(ITS)是智能视频监控系统在现代交通领域的重要应用,代表着未来交通管理的发展趋势,其中基于视频的车辆检测是ITS的一项关键内容,在ITS中起着决定性的作用。通常将
进入到二十一世纪之后,随着互联网的普及、信息化的高速发展,互联网用户的数量和网络应用业务的种类不断增多,使得在网络上不良信息迅速繁衍,不法分子利用网络传递和散步大量
数字地球的发展已对社会生活的各个方面产生了巨大影响,围绕数字地球开展的一系列卓有成效的工作受到了人们的广泛关注。基于大众化的技术开发正在随着GoogleEarth平台和Goog
随着多媒体技术和互联网技术的发展,图像信息越来越得到人们的重视。如何有效、准确地从大量的图像数据库中查找出人们感兴趣的图像成为了人们亟待解决的重要问题。基于内容