基于中文在线评论的产品特征提取与情感分析研究

来源 :东南大学 | 被引量 : 9次 | 上传用户:a316529455
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的普及以及电子商务的迅速发展,网络购物已经成为人们普遍且重要的消费方式。在线评论是电子商务网站上的一个重要的数据资产,它们是用户在网上购买产品后对产品发布的包含个人主观或者客观的态度及意见的文本集合,这些评论数据为网购用户和商家提供了巨大的潜在价值。海量的在线评论依靠人工阅读理解显然无法实现,评论挖掘技术的出现为解决这一问题提供了有效的解决手段并成为了国内外学者研究的热点。评论挖掘主要研究内容包含特征提取和情感分析两部分,本文围绕中文在线评论挖掘的研究,开展了如下工作:1)构建电子产品领域的中文在线评论资料库。本文利用定制化的爬虫工具来自动化抓取京东和淘宝的关于电子产品评论的html内容,并进行解析,然后采用本文提出的初始评论过滤标准对原始评论数据进行过滤和清洗,采用中科院分词工具进行分词,去停用词后,统计词频存入到数据库中,最后将经过预处理的数据存入ES集群中。2)提出一种高效的基于中文在线评论二次剪枝算法来进行特征提取。本文在传统的序列模式挖掘算法的基础上,针对其准确率和召回率不够高的问题,将传统GSP算法与基于统计基础的词对共现度方法进行结合,实现特征的提取和剪枝,得到的特征集合为后续的情感分析工作奠定基础。3)中文句法模式的构建。本文采用句法分析器对评论进行句法解析,而后统计各个依存关系在语料库中的频率,通过对依存模式的研究,结合在线评论的特征,构建了7个依存模式,并提出了一个基于语义距离和标点的提取算法来提取特征及观点组成的元组。最后,本文构建了一个基于11个特征的分类特征模型,并采用SVM、逻辑回归和贝叶斯算法作为分类器,与基线模型进行多个实验比较。通过对特征的筛选和排序,本文最后获得了5个与分类结果最相关的特征,实验结果表明了本文的方法的有效性和易用性。
其他文献
随着各国经济的发展,国际交流日益频繁。英语作为世界上最广泛使用的语言越来越受到重视。本文总结了教学中常用的几种记忆方法,并对大脑在不同时间段的记忆特点及如何创设语言
文章阐述了组建职业教育集团的必要性,分析了组建的条件,提出了组建的思路及做法和应注意的问题。
简要介绍了《陕西煤炭》期刊的创办、发展、提升历程;30年来,期刊渐行渐进渐成熟的行业地域特色,在推介陕西煤炭工业变迁、发展,产学研相结合成果交流推广应用方面的桥梁纽带作用
开滦林南仓矿-650 m水平巷道以深埋高应力和泥质软碎围岩为主要特征,普通的锚喷技术难以适应围岩的非线性大变形,通过分析高应力泥质软岩巷道的破坏机理及变形规律,提炼了主
红石岩煤矿的煤层和瓦斯赋存地质条件较为简单,煤层与瓦斯赋存均受地质构造所控制,煤层埋深、煤系厚度、煤层厚度以及瓦斯分布呈现同步变化之规律,表现出回采工作面的绝对瓦斯涌
这是一部极具新意的高中写作素质化训练的教程,它力求在民族母语情结、言语交际能力、言语行为风格、优良语文习惯和审美情趣与文化品位等五方面发展和提升写作素质,是一项具
土壤源热泵系统的冷热负荷的不平衡,造成系统的运行效率逐年降低。为了更好地克服冷热负荷失调的问题,本文提出了一种地热换热器和地下蓄能相结合的蓄能系统。采用有限长线热源
多媒体技术的迅速发展,使多媒体课件的应用越来越广泛。但多媒体教学并未取得人们预想的效果,其原因并不在于制作技术,而在于如何进行设计,其中脚本设计是最根本的。
介绍了陕西省煤炭学会2009年《高产高效煤矿建设地质保障技术》研讨会的几点收获,以及煤矿地质技术工作,坚持科学发展观,坚持科技创新,支撑陕西煤炭工业跨越式发展取得的主要