论文部分内容阅读
随着互联网应用的普及以及电子商务的迅速发展,网络购物已经成为人们普遍且重要的消费方式。在线评论是电子商务网站上的一个重要的数据资产,它们是用户在网上购买产品后对产品发布的包含个人主观或者客观的态度及意见的文本集合,这些评论数据为网购用户和商家提供了巨大的潜在价值。海量的在线评论依靠人工阅读理解显然无法实现,评论挖掘技术的出现为解决这一问题提供了有效的解决手段并成为了国内外学者研究的热点。评论挖掘主要研究内容包含特征提取和情感分析两部分,本文围绕中文在线评论挖掘的研究,开展了如下工作:1)构建电子产品领域的中文在线评论资料库。本文利用定制化的爬虫工具来自动化抓取京东和淘宝的关于电子产品评论的html内容,并进行解析,然后采用本文提出的初始评论过滤标准对原始评论数据进行过滤和清洗,采用中科院分词工具进行分词,去停用词后,统计词频存入到数据库中,最后将经过预处理的数据存入ES集群中。2)提出一种高效的基于中文在线评论二次剪枝算法来进行特征提取。本文在传统的序列模式挖掘算法的基础上,针对其准确率和召回率不够高的问题,将传统GSP算法与基于统计基础的词对共现度方法进行结合,实现特征的提取和剪枝,得到的特征集合为后续的情感分析工作奠定基础。3)中文句法模式的构建。本文采用句法分析器对评论进行句法解析,而后统计各个依存关系在语料库中的频率,通过对依存模式的研究,结合在线评论的特征,构建了7个依存模式,并提出了一个基于语义距离和标点的提取算法来提取特征及观点组成的元组。最后,本文构建了一个基于11个特征的分类特征模型,并采用SVM、逻辑回归和贝叶斯算法作为分类器,与基线模型进行多个实验比较。通过对特征的筛选和排序,本文最后获得了5个与分类结果最相关的特征,实验结果表明了本文的方法的有效性和易用性。