论文部分内容阅读
随着互联网Web2.0的普及,互联网已经逐渐成为人们表达情绪、发表观点、分享体会的新舆论空间,越来越多的人们习惯在网络平台上留下自己的看法与观点,由此互联网也被更多的人视为“百家讲坛”。网上书店作为电子商务平台是目前人们购买图书的最重要的途径,也是与它人分享读书体会,经及对书籍进行评价的“自由环境”,这些众说纷纭的海量图书评论文本,已成为图书出版、发行和阅读人士关注和研究的舆情资源,成为计算机应用、图书情报、媒体传播等领域跨学科的研究问题,成为大数据分析、数据挖掘数据支撑,具有重要的研究价值。用户在购买图书时会将商品在线评论作为自己购买商品时的决策依据。这些图书评价语料的内容代表了评论者在图书的购买或者使用过程中产生的感想,很多都具有鲜明的主题性和情感倾向性,通过对这些数据进行分析,我们可从发现图书购买者使用图书的角度,对图书给予的客观评价的价值。文本以海量的真实图书评论语料为分析基础,提出了一种从多层面进行文本倾向性分析的解决思路,通过搜集图书评价语料,从中提炼出“内容”“质量”“物流”三个不同主题,分析了人们的大量图书评论数据的情感倾向,从而判断用户对图书的“内容”“质量”和“物流”三个主题的满意程度。本文的研究方法是,首先,利用爬虫工具获取大量“网上书店”上的图书评论原始语料,然后,运用基于主题词聚类的方法,构建了图书评价的主题词库。设计了将图书评论按照不同主题进行语料聚焦算法,最后,针对三类主题评论,通过单句级、用户级到图书级逐级分析算法的设计,给出基于规则与统计的图书评论倾向性分析算法,对图书的不同主题进行倾向性分析。本文设计并实现了一个“基于主题分类的图书评论倾向性分析系统”,对文本的算法进行了验证,得出较好的结论的同时,系统也为今后商业应用提供了可行性思路。