论文部分内容阅读
随着社交网络、电子商务和移动互联网的发展,数以亿计的人积极主动的参与到了网络发展的长河中,使得互联网信息量与日剧增。电商网站、微博或论坛上一些用户乐于分享自己的观点,使得评论信息铺天盖地,这类信息体现了人们对某事物的不同的态度和相异的情感倾向,如肯定、赞成、批评、质疑等。对商品评论进行分析,不仅可以让广大消费者更加清楚某些产品的市场评价,进而做出更加合理的决择,也可以让商家利用分析结果来取得最真实的产品反馈,进而做出更加正确的决策。毋庸置疑的是,在数以累计的评论数据中仅仅通过人工的方法理出脉络是一件异想天开的事情,因此这就急切需要利用计算机来快速准确的挖掘这些评论数据中有价值的信息。对于汽车产品论坛网站上的评论,其语言表达方式多样,表达形式各异,有的甚至没有任何有价值的信息,例如“本人想购买二手经典福克斯,哪位福友想出手请回复一下!”又例如“关注凯越已经一段时间了,总体很是满意,也去了4S店看了实车,询问目前无优惠,最近急需用车,想知道成都哪里有优惠,感谢各位大侠!”该评论只有一部分具有情感,如果通过分析能将其抽取出来会极大减少信息获取成本。本文面向汽车领域中产品评论的情感倾向问题,给出了一个基于细粒度观点搭配的情感分析方法,该方法可以实现从评论文本中自动抽取观点搭配组合、分析其情感倾向,并将结果进行可视化展示。首先,采取网络爬虫的方法来爬取相关汽车产品论坛网站上的评论数据,并对数据进行预处理。使用LDA主题模型抽取文本中蕴含的主题词,在此基础上进行总结、归类,构建领域专用要素词词典,并完善情感词典与副词词典。然后通过分析汽车领域中各种词性之间的可能出现的搭配,设计并完善了各种观点搭配组合的抽取模式,并给出了用以计算不同的观点搭配组合情感极性值的方法。以抽取的要素搭配为基础,构建带权文本向量空间模型,对产品评论进行向量化表示。最后使用KNN算法对测试集进行情感倾向性判别。实验结果显示,本文所给出的方法分类准确率可达95%,具有一定的应用价值。同时,本文对汽车产品评论中基于细粒度观点搭配及其情感倾向进行了可视化展示,使得情感分析结果更加直观明了。