论文部分内容阅读
随着互联网2.0时代的到来,使得网络信息以近乎爆炸的速度进行增长。面对数量如此众多的信息,如何能够快速判断其中的正负情感意图,进而帮助用户、企业和政府做出决策判断呢?本文针对于此问题,研究了文本情感分析体系的分支,即句子级的情感倾向性分析。首先,调查和分析了情感倾向性的研究现状,并在此基础上构建了情感倾向判断的基线系统。明确了本课题中情感倾向性的研究边界和目标,调研了国内外情感倾向性分析的主流方法,确定了一般情感倾向性分析系统所需要的处理过程和方法。重点调研了句子级情感倾向性分析的3种技术:词典法、句法结构方法和机器学习算法。其次,提出了基于三重句法结构的句子级情感倾向性算法。这是隶属于句法结构的算法,在词典法的基础上引入了句间元素的依存修饰关系,并根据关系的远近进行了三个层次的分类。同时,引入树形的句子表示结构。最终结合了树形表示结构和三层句法结构确定了计算顺序。然后,基于三重句法结构算法,提出并实现了用以处理中文语料的情感倾向性判断方法。在观察大量的中文文本后抽象出主要的中文句法关系,并根据关系的递进关系进行了层次划分。根据算法构建模型,结合实验的数据效果与词典方法和分类算法进行了比较。明确了算法的特点和优劣势。另外,基于三重句法结构算法,提出并实现了用以处理英文在线评论的情感倾向性判断方法。设计了英文在线评论摘要系统,该系统完成对英文在线电商网站的评论信息的情感分析。结合网页信息爬取和解析、通用和属性词典建立、产品属性的抽取以及情感分析算法,并根据英文语法的关系对算法模型进行了调整和适配,最终得到情感分析结果。最后,对算法进行总结,并指出可以改进的地方,对算法的未来进行了展望。