基于自动标注训练集的中文微博情感分类的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：mmmzyh

【摘要】

：

微博已经成为最受网民欢迎的社交网络平台之一,它的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品

【作者】

：

刘伟朋

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2014年期

【关键词】

：

微博情感分析自动标注特征选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博已经成为最受网民欢迎的社交网络平台之一,它的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品的观点意见,这些观点往往带有丰富的情感色彩,因此,面向大规模微博数据的情感挖掘具有重大意义。通过情感挖掘可以及时了解用户对舆论热点、产品、政策等的反应,有助于为用户自身、政府机构、企业等提供决策支持。到目前为止,英文微博情感挖掘已经有了大量研究成果,而中文微博的情感分析还处于起步阶段。本文的主要研究工作包括以下几点：1.以用户数最多的微博平台一新浪微博为研究对象,通过其开放平台API获取大规模的原始微博数据,分析了微博数据的特征并比较了微博文本和传统网络文本的不同。2.由于目前尚无高标准的己标注情感信息的微博语料库,本文提出了一种基于表情符号和心理词汇的自动标注微博语料训练集的方法,获取正负情感分类和七类情感分类的训练集,该方法省去了大量的人工标注的负担,减少了传统标注方式对领域、主题和时间等因素的依赖。基于此方法构建了一定规模的语料库。3.本文把微博情感倾向性分类任务主要分为两种,即正负面情感分类和七类情感(高兴、喜爱、惊、焦虑、哀、怒、恶)分类。我们将自动标注好的用于两种分类任务的语料库作为训练集构建微博情感分类器,用以对微博文本进行情感极性分类。4.本文针对上述两种情感分类任务,分别进行了基于n-gram特征项的实验,以及两种特征选择方法‘(信息增益、卡方统计)和两种分类算法(朴素贝叶斯、支持向量机)的交叉验证实验。实验结果表明,正负情感分类的整体性能优于七类情感分类。在正负情感分类任务中,Unigram特征项的性能优于Bigram;信息增益结合朴素贝叶斯的组合性能最佳。七类情感分类任务中,Bigram特征项的性能优于Unigram;两种特征选择方法结合朴素贝叶斯和支持向量机算法实验时,F-测度值的差异性不大。

其他文献

中药制剂不良反应的监测结果分析与用药管理

期刊

红外热像仪非均匀性校正及疵点补偿技术研究

红外热像仪将人的观察范围扩展到了温度的世界，大大提升了人的“可视”范围，因而广泛应用于军事、天文、科研、医药等领域。但红外摄像器件各探测单元响应不一致，使其输出图像在

学位

红外热像仪非均匀性校正两点校正算法两点多段校正算法码长疵点补偿加权平均算法

融合颜色信息与深度信息的多目标检测及跟踪方法研究

多目标检测与跟踪是计算机视觉中的热点问题之一,在军事、场景监控、智能交通等领域有广阔的应用前景和巨大的经济价值。本文针对二维彩色图像的目标检测和跟踪中存在的问题,

学位

目标检测目标跟踪深度信息颜色信息图像融合

浅论瘢痕子宫早孕药物流产120例临床观察