面向微博文本数据的情绪分类方法研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:catscafe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,越来越多的人在以Twitter、微博为代表的社交媒体上分享自己的观点和心情。情绪分析是自然语言处理的一个研究热点,通过分析人们在社交媒体上发布的文本推测他们的主观感受。情绪分类是情绪分析的一项基本任务,旨在判断文本表达的情绪类别,例如高兴、生气等。本文主要面向微博文本数据,开展情绪分类方法研究,重点解决该任务中标注语料匮乏的问题。具体研究包括以下三个方面:首先,本文提出了一种基于情绪图标的弱监督情绪分类方法。该方法利用未标注样本中的情绪图标信息获得大量自动标注样本,并结合少量人工标注样本进行联合学习。该方法的核心思想是将基于人工标注样本和自动标注样本的两个情绪分类任务分别看作主任务和辅助任务。主任务通过辅助任务的共享层获得辅助表示,并将此辅助表示加入到主任务中进行联合学习。实验结果表明使用自动标注样本能够有效提升情绪分类的性能。本文提出的联合学习方法明显优于将人工标注样本和自动标注样本简单混合的方法。其次,本文提出了一种基于情绪特定词向量的情绪分类方法。现有的许多词向量学习算法只对词语的上下文信息进行建模而忽略了词语的情绪信息,从而导致上下文相似但情绪相反的词语有相似的词向量。该方法的核心思想是利用情绪图标辅助训练词向量,将情绪图标与词的关系融入词向量中。具体而言,通过构建一个由词-篇章网络和词-情绪图标网络组成的异构网络学习情绪特定词向量,并使用长短期记忆网络作为分类器进行情绪分类。实验结果表明该方法明显优于直接利用情绪图标的方法和其它一些传统词向量学习方法。最后,本文提出了一种基于跨语言信息的情绪分类方法。该方法利用丰富的英文情绪语料库,从跨语言的角度提升中文微博情绪分类的性能。首先,利用机器翻译工具将中文微博语料翻译成英文,将英文Twitter语料翻译成中文。其次,使用一个多任务学习框架同时学习中文语料和英文语料。将中文微博语料视为原始语料,其它三部分语料视为补充语料,将基于补充语料学习得到的中间表示与基于原始语料学习得到的中间表示进行融合。在此基础上,加入注意力机制,并得到最终分类结果。实验结果表明该方法能够明显提升中文微博情绪分类的性能。
其他文献
《开开汉语》是由中泰合编的针对泰国中小学生学习汉语的教材,这套教材共六册,每册均有对应的练习册,因其难度适中、针对性强,该教材在泰国使用非常广泛。本文从教材的课文、
一般而言,一个独特的文化模式必有一个独特的区域经济与之相适应。具体到东北文化模式,从内在形态上说,独特的人口构成形成独特的文化内在形态。东北地区民族源流的复杂敏感
随着“一带一路”倡议的提出,中越两国的交流变得愈发密切。关于一些重要的新闻事件,两国媒体都会发布大量的汉语新闻和越南语新闻。及时有效地获取双语新闻的主要内容及双语
随着森林康养产业的发展,以森林旅游为主的森林康养基地建设得到重视。广阔的森林、多样的水体和环境因子使得森林康养基地成为康复景观的良好载体。森林作为一种自然环境,对人身体、心理的康养功能在森林医学领域已经得到证实和运用。但是,目前森林康养基地景观规划还处于起步阶段,相应的设计理念和营建方法尚不成熟,康养资源开发有限,整体缺乏有效的理论指导。文章通过对康复景观相关理论研究以及国内外相关案例分析,根据康
《西游记》是我国文坛上焕发着瑰丽色彩的神魔小说。它所塑造的孙悟空形象体现了人类普遍的文化精神——追求人性的自由。当然,这种自由是一个渐进的过程,是从“自然的自由”过
有机电致发光技术因其制备的OLED可取代液晶显示器LCD成为平板显示领域新一代的主流显示器而成为研究领域的关注热点,以溶液法为基础的喷墨打印技术更是推进OLED产业化的基础,本文即利用溶液法制备磷光有机电致发光器件并进行合理地优化,尤其对目前学术界与产业界亟待突破的蓝色磷光OLED,引入双主体结构体系制备高效优质的PhOLED,提高器件的性能,通过对比实验和表征分析,研究器件的发光机制,得到改善器
由于保德县和府谷县在黄河干流上建围河造地违章工程,对沿岸人民生产生活构成了巨大威胁,引发了 2004年 4月的黄河保府段水事纠纷.阐述了这场纠纷的发生、发展和解决的经过,
大数据时代的到来给各个领域的跨越式发展带来新的机遇。在此大背景下,高校图书馆在可提供的信息量、用户获取信息方式等方面也走上快车道。大数据也给高校图书馆原有的信息
在鳞翅目中,弄蝶的分类地位和系统发生关系始终存在着争议。由于弄蝶与其他蝶类在形态学和行为学上的明显区别,比如弄蝶矮胖的体型、钩状的触角,快速的跳跃飞行等,弄蝶通常被人们
阅读教学,作为语文课堂教学的重要组成部分,他们可以在应试中获得高分,但却不能面对复杂阅读情境解决实际的阅读问题,更遑论在阅读能力提高的同时综合提升聆听、演说、写作的