基于多分类器投票集成的半监督情感分类方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:countrygary
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,越来越多的用户愿意通过互联网发表自己的观点。对这些主观性文本进行分析和挖掘,从而识别出其中所蕴含的情感倾向,对于电子商务、舆情监控等众多领域有着重要的应用价值。因而情感分类问题正逐渐成为自然语言处理领域的一个具有挑战性的研究热点,本文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。本文提出了一个基本猜想,即子分类器意见一致的文本的预测准确率应该比那些子分类器意见有分歧的文本预测准确率更高,且分歧越大,预测的置信度将会越低。并在大量的数据集上用实验验证了这个基本猜想。基于这个猜想,本文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍并更新训练模型。该方法使得子分类器可共享有用的属性集,具有对数时间复杂度并且可用于非平衡语料。实验结果表明我们的方法在不同语种,不同领域,不同规模大小,平衡和非平衡语料的情感分类中均具有良好效果。
其他文献
学位
在学校信息化建设不断发展进步的过程中,校园一卡通系统应用的范围不断地扩展,应用的层次不断地深入和提升。信息化建设在发展的过程中会产生很多问题,需要用正确的态度来面
目前的语义Web服务发现方法,由于受用户所处环境上下文信息的约束,所发现的服务尚不能很好地满足用户的期望。如何有效地整合上下文信息以实现Web服务的发现成为新的研究热点
随着Internet和计算机技术的迅猛发展,以视频点播、远程教育为代表的流媒体业务不断涌现,在Internet上开展流媒体直播或点播业务是未来的发展方向。为满足流媒体对带宽、实时
结合定性推理、空间推理[1]与人工智能产生的定性空间推理,已成为人工智能的一个研究热点。定性空间推理研究的是人类对几何空间中的空间对象及其关系定性认知常识的表示与处
实体关系抽取是在自然语言文本中识别实体之间语义关系的任务。本文首先提出了一套新颖的基于复合型核函数的中文实体关系抽取方法,它定义在两个独立的核函数基础上,其中一个
人脸检测和特征提取作为人脸信息处理中的关键技术,近年来,在模式识别与计算机视觉领域,己经成为一个受到普遍重视、研究十分活跃的课题。人脸检测与特征提取被广泛运用于人
目标人体识别是一个非重叠多摄像系统中人的重现(person re-identification)问题,该技术在智能视频监控领域中具有重要的应用,主要包括目标人体提取、非重叠摄像系统目标跟踪
软件测试是保障软件质量的重要手段,软件测试在软件开发中的地位也日益重要。其中数据流技术作为一种白盒测试技术,能提供充分的代码覆盖,已经被广泛应用到面向对象软件测试
脉冲时滞神经网络是时滞大系统的一个重要组成部分,它不仅反映了过去状态对当前状态的影响,而且反映了脉冲在系统中的重要作用,具有十分丰富的动力学行为。事实上,它已成为刻