面向微博文本的情绪分析方法研究

来源 :苏州大学 | 被引量 : 6次 | 上传用户:xyy2017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展以及移动智能终端的普及,越来越多的用户在以微博为代表的社交网络上表达自己的观点和情感,由此产生了大量富有情绪表达的文本信息。近年来,情感分析研究受到计算语言学领域研究者们的密切关注,成为一项基本的热点研究任务。情绪分析是情感分析的一项基本任务,旨在对这些文本表达的情绪(例如:喜、怒、哀、恐等)进行自动分析。本文针对微博文本情绪分析方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出了一种基本情绪和复合情绪相结合的情绪分类体系,并利用该分类体系对微博文本进行情绪标注,构建了一个规模较大的中文微博情绪语料库。同时,为了减少标注的工作量,提出了结合自动标注的标注方法,提高了标注效率。最后的标注结果显示,我们提出的情绪分类体系能够较好的区分不同的情绪类别,同时取得了较高的标注一致性。其次,本文提出了一种基于句法信息的微博情绪识别方法。该方法是一种监督学习方法,将情绪识别看成一个二元分类问题。我们利用词性标注序列和句法树表示文本的句法信息,并分别从中提取词性标注序列模式特征、重写规则特征和二元句法标签特征,应用到机器学习分类算法中。该方法有效克服了微博文本内容短小、携带信息相对较少而带来的不利影响。实验结果表明,本文提出的基于句法信息的情绪识别方法相对于仅使用词特征方法能够获得更好的识别效果。最后,针对多个情绪类别中样本分布不平衡问题,本文提出了一种基于集成学习的微博情绪分类方法。该方法核心思想是利用随机欠采样的方式产生一组训练子集,在此训练子集上训练基分类器,最后融合所有基分类器的结果,得到最终集成学习的结果。实验结果表明,本文的方法能够充分的利用多类样本来帮助提高情绪分类效果,较好地解决了情绪类别样本分布不平衡问题。
其他文献
DNA计算是近年来计算机研究领域的一个热点方向,在近几年分子生物计算机的研究中倍受学者们的关注。基于分子生物技术的DNA计算是一种模拟生物分子DNA的结构并借助于生化反应
学位
随着企业应用环境逐渐向Internet网络分布式计算环境转移,企业级Web应用呈现出复杂性、动态性等特征,对位于中间件层的Web应用服务器性能优化提出了更高的要求,其中资源的利用和
数字视频在教育、娱乐及其它多媒体应用中发挥着重要作用。为了满足需求,各种各样的视频分析、检索技术被提出,其中,视频文本包含了丰富的高层语义信息,可用来对视频进行语义标注
视唱练耳是音乐专业的一门重要的专业必修课程,如果掌握了多媒体这个先进的教学手段,视唱练耳课程在技术上获得更多新的原动力,继而走进一个可持续发展的领域。因此,将电脑音
Web服务是实现面向服务的架构(Service-Oriented Architecture,SOA)的方法之一。SOA的最大优点是可以通过组合已有的服务来快速开发部署新的业务,这些服务可以属于同一组织,也可分
随着科学技术的发展,煤矿生产安全监控系统日臻完善,大多数煤矿都安装了视频监控系统。煤矿视频监控系统在煤矿的安全生产中发挥了重要作用,然而矿井下粉尘多、光照差的恶劣
学位
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主题的搜索引擎应运而生。主题爬虫作为主题搜
现下于人们的日常生活中,基于地理位置信息的服务(LBS,Location-Based Services)是一种经常性被使用的应用服务,绝大多数以LBS为核心的实际应用都依赖于路径规划技术,以提供
Web Service是一种新的web应用程序,为应用程序之间的互操作提供了一种标准的方式。Web Service使不同平台和系统的客户端,能够调用由不同语言开发的服务功能。Web Service体系
试题库自动组卷问题是一个多目标优化问题。本文首先分析了试卷的评价指标以及各项指标的作用,建立了各评价指标约束构建的试卷模型;然后,针对自动组卷系统的自身特征,重点对