互联网商品评论情感分析研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:nafei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务蓬勃发展的网络环境下,越来越多的关于商品的主观性评论文本出现在各类购物网站上。这些评论文本中包含用户对产品各个方面的情感倾向,如喜欢、讨厌等。对其进行情感分析不仅可以帮助商家及时了解商品的优缺点,从而改善商品质量,而且也能为潜在消费者的购买决策提供数据支持。情感分析技术能充分利用这些海量的评论文本,从中挖掘出用户对商品的褒贬态度,越来越多的研究者涉足到这一领域的研究。情感分析技术的主要任务是从给定的文本中标注出用户对某个事物所表达的情感倾向。研究内容包括非结构化文本的主客观内容识别、情感倾向性分类,情感强度等。其涉及到自然语言处理、文本分类、机器学习等多个研究领域。本文的主要研究重点主要是对主观性文本所表达正向或负向的情感进行分类。本文从商品的属性出发,提出了基于组合神经网络的属性聚类算法,并用该方法对商品属性进行聚类。随后提出将评论文本表示成一个四维向量的表示方法,并结合SVM算法来实现对商品评论的情感分析。针对商品评论文本中经常出现网络情感词语这一特点,本文提出了基于Google的word2vec工具来构建商品评论情感词典的方法,并用该方法来对评论文本进行情感分析。基于组合神经网络的属性聚类方法综合考虑了评论文本中属性词与其上下文中词语的位置关系,根据语法和上下文信息来对评论文本中的属性进行聚类。通过聚类,评论文本被划分成若干个簇,随后给每个簇标注一个类别标签。每个类别标签中的评论文本都是针对商品的同一属性进行评价的。由于商品评论文本具有篇幅短小、褒贬情感鲜明等特点,本文将评论文本转换为一个四维的向量。通过用网络爬虫获取的真实的商品评论作为数据源,将本文提出的方法与常见的几种特征选择算法进行对比,用SVM算法对评论文本的情感倾向进行分类,验证了该方法的准确性和有效性。通过对word2vec工具进行训练,构建商品评论情感词典,然后用该词典对评论文本进行情感倾向性分类,实验证明该方法具有较高的分类准确率。
其他文献
与平面显示技术相比,立体显示技术可以提供更全面的场景信息,为观众带来逼真的现场感,是人类一直以来对自然视觉重现的追求。以往立体显示技术需要借助各种辅助工具进行观看,
随着信息技术的发展,作为信息技术的基础,软件正在随着其规模的扩大和复杂性的提高,变得越来越难以开发和维护。互联网技术的发展更使得软件漏洞暴露在大量的攻击和入侵事件
随着现代计算机网络技术的发展,诸如银行系统、火车票网上订票系统、卫星控制系统等分布式系统得到广泛的开发和使用。针对大规模分布式系统以及安全至上的系统,容错能力是其设
基于超图的半监督学习因其既利用了有标记数据样本的信息又利用了无标记数据样本的信息,近年成为一个研究热点,有很高的研究及应用价值,在图像处理、模式识别、语音识别等领域已
交通标志牌作为一种重要的交通基础设施,可以为驾驶员和行人提供道路指引信息,规范驾驶员行为的同时也起到了便利交通、保障安全的作用。道路交通标志检测作为智能交通领域的一
随着智能拍照手机的普及和互联网大数据的兴起,场景文本识别的应用越来越广泛,诸如移动翻译系统、车辆识别、多媒体检索、盲人导航等。最近几年场景文本识别受到了广泛关注,未来
近年来,采用P2P模式解决流媒体服务系统的瓶颈问题受到越来越多的重视。如何在充分利用P2P网络中众多节点资源的前提下,确保流媒体服务质量、提高播放的性能,成为P2P流媒体技
IDP(Integrated Data-Service Platform)是开放的、模块化的、基于标准的基础平台,它向下提供与短信网关、彩信中心、BOSS (Business & Operation Support System,运营支撑系
近年来,随着无线网络技术的飞速发展,各种无线技术在相互竞争的同时,也正在逐步走向互补融合。未来无线网络发展的趋势必然是在保留现有各种无线技术的基础上,提供一种统一的
基于上下文的自适应二进制算术编码(CABAC)是H.264/AVC标准的一种熵编码方案,与另一熵编码方式基于上下文的自适应二进制变长编码(CAVLC)以及传统的VLC基线熵编码方式比提高了