论文部分内容阅读
随着互联网进入千家万户,网络早已成为大众获取信息、发布信息、传递信息的重要途径。与此同时,网络中出现了越来越多的主观性文字,如论坛帖子、博客、贴吧、微博等。人们可以很自由的通过这些主观性文字抒发自己的情感、思想,表达自己的意见。微博作为全球受到广泛欢迎的网络应用之一,越来越多的人习惯在以微博为代表的社交网络上获取信息、交流信息与表达情感。庞大的微博用户量以及用户所产生的微博数据背后隐藏着巨大的商业价值和社会价值。微博相关的研究课题越来越受到人们的关注,微博情感分析就是其中之一。微博情感分析是指通过分析和挖掘微博中的主观性信息并判断其情感倾向。微博情感分析技术应用场景非常广泛,能够应用于舆情监测、产品推荐、信息预测等多种系统。微博短文本的情感分析技术是近年来学术界的研究热点,相关技术评测也得到了各大高校的广泛参与,由于微博短文本存在口语化、简洁化等社交网络特征,对微博情感分析的研究具有相当的挑战性。深入分析研究微博情感分析技术,提升微博情感分析的性能具有十分重要的现实意义。微博的情感分析问题可以看作是分类问题,重点在于判别微博的正、负情感倾向性。所用的方法主要可以归结于基于规则的分类方法和统计机器学习的分类方法。微博情感分析现已取得不少进展,但从情感分类效果和性能看,依旧存在着准确率不够高、依赖性较强等缺点,因此本文研究希望找到一种能提高准确率,同时普适性较好的微博情感分析方法。首先,本文对文本情感倾向性分析的概念和基本的方法进行了总结分析,针对当前微博标注语料不足的现状,提出了半监督训练的方法,该方法能充分利用未标的注微博语料。其次,现有的情感分析方法主要是对微博的局部信息进行利用,通过特征工程的方法来提高分类的效果,本文采用LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型的方法可以对微博潜在的主题信息进行很好的利用。最后,将半监督训练的方法与LDA主题模型的方法进行了融合,以半监督训练为框架,使用LDA主题模型聚类后再使用SVM(Support Vector Machine,支持向量机)的方法对微博进行情感分析。实验结果表明,本文提出的方法能够很好的利用未标注微博语料和微博的主题信息,与传统的方法相比,正确率,召回率以及F1值都得到了一定的提高。