论文部分内容阅读
Web2.0的出现使用户成为互联网信息的创造者和管理者,彻底地改变了互联网信息单向传播的模式。微博作为典型的Web2.0互联网应用,自引入国内以来,迅速发展成为人们分享和获取信息的核心社交平台。用户通过微博发表观点、表达情感,使互联网产生了海量的包含情感的文本信息。对微博进行情感分析研究,有助于微博监管、舆情发现、舆论引导和商业竞争情报分析等工作的实现。相对于传统文本,微博内容具有主题广泛、表达口语化以及语言碎片化等特点,针对于微博的情感分析会遇到更多的困难和挑战。目前国内关于中文微博情感分析方面的研究尚处于起步阶段,还有大量研究问题需要深入探讨解决。因此,对微博情感分析进行研究,具有较高的理论价值和应用价值。论文以新浪和腾讯微博消息作为研究对象,使用语义分析的方法探讨了中文微博情感分析相关技术,主要包括情感词典构建方法、中文微博情感分析方法以及文本(包括微博)的情感分析实验系统的设计和实现等内容。在情感词典构建研究方面,提出一种基于语义分析的中文基础情感词典构建方法,利用HowNet和SentiWordNet资源,将词语自动分解为多个义元后计算其情感倾向强度值,使用支持向量机构建微博情感分类器进行实验,实验结果表明该词典优于一般极性情感词典。在网络用语情感词典和表情符号情感词典构建方面,借鉴SO-PMI算法,采用基于语料统计的方法对相应候选词集进行情感权值计算。在微博情感分析技术研究方面,提出一种基于语义分析的中文微博情感分类方法。折中方法结合所构建的词典对文本进行依存句法分析,并构建情感表达式树,根据制定的规则计算微博的情感强度,根据强度值判断微博的情感倾向类别。实验结果验证了该方法的有效性,也表明所构建的表情符号情感词典和网络用语情感词典能够有效地增强情感分类器的性能。在文本(包括微博)情感分析实验系统设计和实现方面,利用构建的词典资源以及提出的情感分析方法,设计和实现基于C/S和B/S混合体系结构的文本情感分析的实验系统,对海量数据文本情感分析进行探讨。实验系统功能主要包括情感词典构建工具、语料管理工具、情感分类工具以及在线情感分析和可视化工具等。