基于自动标注训练集的中文微博情感分类的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:mmmzyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博已经成为最受网民欢迎的社交网络平台之一,它的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品的观点意见,这些观点往往带有丰富的情感色彩,因此,面向大规模微博数据的情感挖掘具有重大意义。通过情感挖掘可以及时了解用户对舆论热点、产品、政策等的反应,有助于为用户自身、政府机构、企业等提供决策支持。到目前为止,英文微博情感挖掘已经有了大量研究成果,而中文微博的情感分析还处于起步阶段。本文的主要研究工作包括以下几点:1.以用户数最多的微博平台一新浪微博为研究对象,通过其开放平台API获取大规模的原始微博数据,分析了微博数据的特征并比较了微博文本和传统网络文本的不同。2.由于目前尚无高标准的己标注情感信息的微博语料库,本文提出了一种基于表情符号和心理词汇的自动标注微博语料训练集的方法,获取正负情感分类和七类情感分类的训练集,该方法省去了大量的人工标注的负担,减少了传统标注方式对领域、主题和时间等因素的依赖。基于此方法构建了一定规模的语料库。3.本文把微博情感倾向性分类任务主要分为两种,即正负面情感分类和七类情感(高兴、喜爱、惊、焦虑、哀、怒、恶)分类。我们将自动标注好的用于两种分类任务的语料库作为训练集构建微博情感分类器,用以对微博文本进行情感极性分类。4.本文针对上述两种情感分类任务,分别进行了基于n-gram特征项的实验,以及两种特征选择方法‘(信息增益、卡方统计)和两种分类算法(朴素贝叶斯、支持向量机)的交叉验证实验。实验结果表明,正负情感分类的整体性能优于七类情感分类。在正负情感分类任务中,Unigram特征项的性能优于Bigram;信息增益结合朴素贝叶斯的组合性能最佳。七类情感分类任务中,Bigram特征项的性能优于Unigram;两种特征选择方法结合朴素贝叶斯和支持向量机算法实验时,F-测度值的差异性不大。
其他文献
期刊
红外热像仪将人的观察范围扩展到了温度的世界,大大提升了人的“可视”范围,因而广泛应用于军事、天文、科研、医药等领域。但红外摄像器件各探测单元响应不一致,使其输出图像在
多目标检测与跟踪是计算机视觉中的热点问题之一,在军事、场景监控、智能交通等领域有广阔的应用前景和巨大的经济价值。本文针对二维彩色图像的目标检测和跟踪中存在的问题,
期刊
随着移动通信技术的发展和基于网络的应用程序的激增,能够快速定位网络中服务资源的服务发现系统已经成为了未来网络中必不可少的重要功能模块。 我们对现有的一些成熟的、
期刊
随着移动通信的发展,对移动终端设计要求也逐步增加。如何在恶劣的无线传播环境里以及用户运动且相互干扰的情况下为各类不同业务提供QoS保证、提供更多的网络带宽及无线资源,
高清晰度电视(HDTV,High Definition Television)技术是融合信息论、数字信号处理、计算机技术、超大规模集成电路、通信技术等高新技术成果而综合发展起来的一项新兴前沿技
期刊
期刊