论文部分内容阅读
文本情感分类是利用计算机对文本进行情感倾向性分类,利用文本情感分类可以对网络中舆情进行预测,可以对商业产品进行优缺点分析,甚至在网上用户行为挖掘中也可以加入情感分类的内容。近年来,随着网络技术的发展和成熟,网络从以计算机为中心转变到以网络用户为中心,用户可以在网上随意发表自己的观点评论,而微博的出现更加速了网络中用户之间的交流。大量微博评论信息充斥网络,如何有效利用这些数据服务大众,也越来越急迫。
本文设计了一种基于向量空间模型的情感分类算法,利用情感句中评价对象及情感单元建立情感向量,计算出情感句的情感倾向,并得出相应的情感倾向权重值。最终设计并实现了一个微博情感分类的检索系统。本文中所做的工作如下:
1)利用数据抓包工具HttpWatch对新浪微博数据交互过程进行分析,并实现了对新浪微博数据的爬取。
2)对情感词典进行了筛选,并结合情感词典提出了一种评价类情感句中情感单元的抽取方法。
3)利用正态分布的规律对情感词情感权重计算进行了研究,并设计实验进行了实验分析。
4)在向量空间模型的基础上,提出了一种短文本情感分类算法,利用评价对象作为维度,情感单元中情感权重作为维度权值建立向量空间模型,计算得出情感句的情感类别及情感权重。
最终通过实验验证了本课题提出的抽取方法和情感分类算法具有一定的科学性及可行性。