基于SVM的网购评论文本倾向分析研究

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:pisahaochima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和web技术的极速发展,各类电商网站迅速崛起,愈来愈多的用户喜欢在这类网站上购物并发表评论,这些评论通常包含重要的应用价值,例如,用户和商家可以根据好评率决定自己的行为。目前网站上的好评率是通过统计用户评分得到的,但是仅仅根据评分判断是不准确的,因为有的评论内容明显是差评,但评分却很高。因此,需要一种对评论内容进行倾向分析的技术,根据评论内容倾向分析结果统计好评率。评论倾向分析的结果,直接影响好评率的统计准确率。通过分析现有倾向分析技术,针对分类准确率较低等问题,本文以现有研究成果为基础,基于SVM对网购评论进行倾向分析,主要研究内容如下:(1)采用Word2Vec和HowNet结合的方法构建领域情感词典。单独使用Word2Vec和HowNet时很多词无法判断情感倾向,为了构建完备的领域词典,首先基于Word2Vec获取候选词的相近词,根据相近词确定候选词的情感倾向,当用Word2Vec方法无法判断倾向时,则基于HowNet来判断,即通过计算候选词与正反种子词的语义相似度确定情感倾向。为了避免基于SVM倾向分类时大量的人工标注和标注结果受个人因素影响,本文使用基于情感词典的方法构建训练集。首先基于构建的情感词典计算评论的情感值并根据情感值排序,最后选择一定比例的情感值高的评论作为正向训练集,情感值低的评论作为反向训练集。(2)基于改进TF-IDF算法计算特征权重。因为仅基于TF-IDF算法计算权重时,忽略了特征的极性值对倾向判断的影响,所以本文首先计算特征的极性值,然后把极性值加入TF-IDF计算过程中。(3)基于加权Word2Vec改进评论文本向量表示。传统的基于加权Word2Vec表示文本向量时,把评论中每个词都作为影响倾向分类的因素,没有重点考虑特征词对倾向分类的影响,所以本文基于加权Word2Vec构建向量时着重考虑特征词对倾向分类的影响,忽略不重要的词,并在向量中加入评论中正反情感词,否定词和程度副词的个数构成最终的文本向量。(4)采用本文改进方法,通过分析3万条包含味道属性的餐饮评论的正反倾向,根据正反倾向统计好评率和差评率,验证了基于SVM对评论进行倾向分析后,统计好评率和差评率比常用的根据评分统计好评率和差评率准确率高。
其他文献
2009年1月15日,中央电视台科学频道《走近科学》栏目播出了一期名为“他为什么不出汗”的节目。案例的主人公是一个从来不会出汗的8岁小男孩,在经过六七年的寻医问药后,终于在北
近年来,非正规就业规模迅速扩张,日益成为各国和地区重要的就业渠道和就业趋势。本文通过对国内外非正规就业概念进行深入的辨析,系统梳理贫困就业理论、二元经济理论和新自
“努力建设开放而有活力的语文课程”是语文课程改革的基本理念之一。这即要求语文课堂教学必须打破传统教学模式,实施开放性的课堂教学,而设计语文开放性问题则是语文课堂教学
函数零点问题和含参数不等式恒成立问题是近几年高考的热点问题,解决此类问题的思路通常是将不等式问题转化为求极值问题.但有时会遇到极大值、极小值点不好求或式子过于复杂
采用四因子二次正交旋转组合设计,利用超声提取法研究了提取温度、提取时间、提取次数及料液比4个因素对藤茶总黄酮得率的影响,并用DPS9.50分析软件建立4个因素对黄酮得率的数学
美国妇女的就业人数已达到4900万。经济学家们认为,15年来,美国妇女潮水般地踏入各行各业,是本世纪最深刻的变化。4900万就业妇女的经历告诉人们,就业对她们意味着独立、时间
目的对下一代测序数据质量控制的几个主要问题进行分析,设计数据清理和质量控制软件,为下游的数据分析提供保障。方法基于Bioconducter软件包,开发了一个数据清理软件(Fastq_
<正>国企改革是中国经济发展面临的一个比较独特的课题。国有企业由两个相对复杂的组织构成:一个是国家,另一个是企业。两类组织的合并即为国有企业的构成,其复杂性更为突出
研究了聚醋酸乙烯酯水性乳胶涂料中助溶剂丙二醇的加入量对涂料性能的影响,在其他助剂、颜填料和主要成膜物质加入量都不变的情况下,分析了丙二醇不同加入量对涂料粘度、表面
民政档案管理工作是我国各级民政部门的基础工作,但同时也是民政部门各项工作中,不可缺少、不能忽视的必要组成。各级民政部门是否可以对档案进行高校有序的整理,是民政部门