【摘 要】
:
微博是目前十分热门的一种社交网络工具。人们越来越倾向于通过微博分享自己的所见所闻以及对热门事件发表评论等,这些评论通常包含了评论者丰富的情感,表明评论者的观点。通
论文部分内容阅读
微博是目前十分热门的一种社交网络工具。人们越来越倾向于通过微博分享自己的所见所闻以及对热门事件发表评论等,这些评论通常包含了评论者丰富的情感,表明评论者的观点。通过分析这些微博评论的情感倾向,可以获得丰富的信息,有助于用户分析、舆情分析等多方面的应用。本文研究的对象为中文微博,与英文文本相比,中文文本具有其独特的语言特征和词语构造方法。首先针对中文文本,研究了中文分词算法。中文微博具有新词出现频率高和词语组合语义多样等特点,通过分析对比常用的分词工具,玻森分词通过点互信息解决了新词识别以及组合歧义的问题,本文采用玻森进行中文微博分词处理,获得了更好的分词效果。研究了常用的文本表示方法,选择了使用Google的Word2vec训练得到蕴含上下文语义信息的词向量。在此基础上,考虑程度副词对情感表达的影响,设计了对词向量进行情感权重调整的方法。根据HowNet情感词典的规定,对不同的程度副词赋予不同的权重,突显程度副词对情感的影响。为了验证情感权重调整得到的情感词向量对情感分类的有效性,分别将情感词向量和Word2vec得到的词向量在使用LSTM模型学习特征后,用于微博情感分类,实验结果表明,对词向量进行情感权重调整提高了微博情感分类的准确率。目前中文微博的情感分析大多数是将微博分为正负两类,但人们的情感表达是多样的。针对微博情感表达丰富的问题,本文在NLPCC2014提供的包含多类情感标签的微博数据上,采用LSTM模型学习特征,并使用Softmax计算多分类的概率,最后实现了中文微博情感的三分类和四分类。
其他文献
虚拟现实技术是二十世纪末兴起的一门综合性信息及计算机应用技术,它融合了计算机图形学、三维实时动画技术、计算机接口技术、传感技术,人工智能等多个信息及计算机应用技术
随着我国海军的日益强大和海运的日趋繁荣,船行波的研究引起人们越来越多地关注。随着对船行波研究的深入,船行波的三维可视化研究成为新的研究课题。船行波的三维可视化仿真
医学体数据场可视化是从由医学切片(如CT、MRI等)组成的三维医学体数据场中获得人体的有用信息,并将其重构为三维模型,从而清晰地显示出人体器官或组织的复杂特征和空间定位
随着信息时代到来,数据库存储信息量急剧增大。面对庞大的数据资源,人们需要功能强大的工具来“挖掘”其中有用的知识。数据挖掘(Data Mining,DM)正是在这个背景下而提出的新
网格这一新兴的IT技术是继Internet和Web技术之后又一次重大的科技变革。它使得人们可以比以往任何时候都更加经济方便的使用高性能的网格资源,如计算能力,存储空间等等。然
分数阶混沌动力系统具有比整数阶系统更为复杂、丰富的动力学特性,近年来,基于分数阶微分和积分的动力学系统得到了较为广泛的研究,其中涉及分数阶电路、分数阶数字信号处理、分
医学影像是临床诊断的重要依据。如何针对医学图像的特点进行高效压缩,一直是图像压缩领域的热点问题之一。医学图像压缩要求在保证图像质量的前提下,尽量提高压缩比。新一代
本文分析了目前常见的基于Linux的高可用性双机系统的实现的特点、技术手段和局限性,研究了心跳检测、成员籍管理、可靠通信和多播等关键技术,设计了一个新的Linux高可用性双机
特征降维是模式识别领域对高维数据分析的重要预处理步骤之一。在信息时代的科学研究中,不可避免的会遇到大量的高维数据,如人脸检测与识别、文本分类和微阵列数据基因选择等。
eMule作为当今世界最流行的P2P文件共享系统,拥有数以千万计的用户,同时在线客户端有数百万,共享了数以亿万计的文件资源,才外,eMule系统除了支持传统的eDonkey网络外,还加入