论文部分内容阅读
随着互联网技术的快速发展,以各种新闻、博客、论坛等为来源的信息呈现出海量增加的态势。微博,又名微型博客,是一种基于web技术的网络用户信息分享平台,用户方便地通过PC、移动设备登录,微博为人们提供跨越时间、空间的通讯方式,可以为人们提供一个展示个性、表达感情的空间。微博的一大显著特征是它的实时性,即每时每刻都会产生许多带有情绪色彩的信息。情绪分析指的是针对说话者在表达信息时所含有的内在情绪进行相应地分析和归纳,例如可以对他们的观点、态度等方面进行深入地分析和归类,以至于可以从中既快速又精确地捕捉关键信息。这样的分析和归类结果可以应用于许多实际的场景,以企业员工微博为例,可以通过微博内容的情绪分析,从侧面得出员工对于企业决策、制度等等的态度,为企业政策更好的落实和执行进行有力支持。本论文围绕中文微博内容情绪的分析和研究,综合运用了自然语言处理、机器学习技术。主要完成的工作有:(1)中文微博情绪分析,通过文本去噪、基于同义词词林和互信息量的情绪词典扩展等准备工作,使用TF-IDF对文本中的关键情感词计算权重值,并以此权重对微博文本提取特征矩阵。根据特征矩阵高维、稀疏,采用线性SVM(Linear SVM)分类器对微博进行情绪类别(anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶、none无情绪中的一种)分析。(2)微博中的每个句子有无情绪判断,使用LDA(隐狄利克雷)算法得到微博句子与隐含主题的对应概率矩阵,以此作为文本特征矩阵,使用非线性SVM进行是否包含情绪的判断。(3)句子的主要情绪和次要情绪的判断,使用句子成分分析法,对句子中出现的各类情绪词、表情以及影响其权重的程度副词、关联词、双重否定词等进行综合考虑,计算权重和,按照值大小排序确定主要、次要情绪。本论文通过对官方语料采用各种分类模型的实验,在中文微博情绪分析任务中,结合微博文本的特点,创新性地采用了TF-IDF和线性SVM(Linear SVM)的方法,并取得了较好的结果,分类器的分类效果在参赛论文实验结果中位于前列,证明了本论文方法的可行性。