论文部分内容阅读
随着互联网技术的迅速发展,越来越多的人通过网络平台发表自己对身边的各种现象或政府出台的各项政策的看法,互联网已不仅是人们浏览查阅信息的来源途径,更成为人们交流看法、发表观点的地方,对于网络用户来说,互联网的兴起不仅方便了他们的工作,同时也走进了他们的生活。通常,人们对某种现象进行评论或者发表自己观点时,他们的情感倾向常常会伴随着文字表达出来,对与这种大众化的观点倾向的提取,无论是在商业领域还是管理领域都是具有巨大的实用价值的。分析文本的倾向性,是自然语言处理领域中比较热的一个研究点,主要的目的是判定一篇文章中针对评价对象所表达的情感倾向是正面还是反面。本文在研究现有的文本倾向分析相关技术的基础上首先构建了用于文本分析的语用资源,并以此为基础通过Stanford Parser(斯坦福大学句法分析器)来正确评估极性词上下文倾向性,然后使用支持向量机作为分类方法构建文本倾向性的分类器,并通过实验来验证算法的实际效果,以此算法为技术支持,构建了石鼓舆情监控系统的文本倾向性分析模块。主要的工作概括如下: (l)对目前舆情监控和文本倾向性分析的进展做了相关的分析,并就相关的技术做了详细的介绍。 (2)针对语义资源缺乏的现状并考虑到在对文本进行倾向性分析极性词所扮演的重要角色,实际构建了一部领域极性词库。 (3)针对目前极性词上下文关系倾向丢失的现象,提出一种计算极性词上下文情感倾向的算法,通过此算法得到极性情感词上下文的实际倾向,在此基础上,运用LIBSVM构建文本倾向性的分类器。 (4)在研究理论的基础上,在网络舆情监控系统--石鼓网络舆情监控系统中实际的构建了文本倾向性分析模块,为用户了解舆情的走势提供参考。 本文的创新点主要是提出了一种以机器学习和句法分析相结合的文本倾向性识别算法,首先在大连理工大学的情感词汇本体的基础上扩展相关的特征词汇构建极性词库作为算法的语义资源,通过极性词库和句法分析获取特征项来构建相应的句子向量,最后通过支持向量机算法训练用于文本倾向性识别的分类器,并通过实验验证了算法的有效性。