论文部分内容阅读
微博已经成为最受网民欢迎的社交网络平台之一,它的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品的观点意见,这些观点往往带有丰富的情感色彩,因此,面向大规模微博数据的情感挖掘具有重大意义。通过情感挖掘可以及时了解用户对舆论热点、产品、政策等的反应,有助于为用户自身、政府机构、企业等提供决策支持。到目前为止,英文微博情感挖掘已经有了大量研究成果,而中文微博的情感分析还处于起步阶段。本文的主要研究工作包括以下几点:1.以用户数最多的微博平台一新浪微博为研究对象,通过其开放平台API获取大规模的原始微博数据,分析了微博数据的特征并比较了微博文本和传统网络文本的不同。2.由于目前尚无高标准的己标注情感信息的微博语料库,本文提出了一种基于表情符号和心理词汇的自动标注微博语料训练集的方法,获取正负情感分类和七类情感分类的训练集,该方法省去了大量的人工标注的负担,减少了传统标注方式对领域、主题和时间等因素的依赖。基于此方法构建了一定规模的语料库。3.本文把微博情感倾向性分类任务主要分为两种,即正负面情感分类和七类情感(高兴、喜爱、惊、焦虑、哀、怒、恶)分类。我们将自动标注好的用于两种分类任务的语料库作为训练集构建微博情感分类器,用以对微博文本进行情感极性分类。4.本文针对上述两种情感分类任务,分别进行了基于n-gram特征项的实验,以及两种特征选择方法‘(信息增益、卡方统计)和两种分类算法(朴素贝叶斯、支持向量机)的交叉验证实验。实验结果表明,正负情感分类的整体性能优于七类情感分类。在正负情感分类任务中,Unigram特征项的性能优于Bigram;信息增益结合朴素贝叶斯的组合性能最佳。七类情感分类任务中,Bigram特征项的性能优于Unigram;两种特征选择方法结合朴素贝叶斯和支持向量机算法实验时,F-测度值的差异性不大。