论文部分内容阅读
随着电子商务的迅速发展,网上购物变得越来越频繁,各电商平台每天都会产生大量的交易数据和用户评论数据,对于用户评论数据,其中蕴藏着许多有价值的信息,如产品的缺陷信息、用户的需求信息等。对此,本文针对电商平台中产品评论大数据获取及应用进行了深入研究,通过提取产品评论大数据中各属性词的评价观点和意见,将提取的观点经过整合后生成评价摘要,以简洁、易读的形成呈现给用户,为顾客购物提供更好的参考和指引,使商家更好地了解顾客需求,提升服务质量,使产品设计人员能够及时了解用户的使用体验,改进产品设计的不足,提升产品质量。对此,本文围绕产品评论大数据的获取、聚类、产品属性词识别、以及评价观点的提取和整合等方面进行了深入研究,将Nutch网络爬虫与Hadoop相结合实现了评论数据的分布式爬取,提高了评论数据的爬取效率;将爬取的评论数据经过预处理后得到评论数据集,采用TF-IDF方法来计算特征词的权重,采用基于向量空间模型的方法来计算评论语句的相似度,并将Canopy聚类算法与K-means聚类算法结合起来使用,采用MapReduce框架来实现这两种算法对评论数据的聚类分析,提高了评论数据的聚类效率和聚类精度。将爬取的海量评论数据经过聚类分析后,得到以产品属性词为主要聚类中心的各个聚类族,采用基于产品属性的评价观点提取方法,将各个聚类族中关于产品属性的评价观点提取出来,经过观点整合后形成评价摘要,以评价摘要的形式呈现给用户,提高了属性词评价观点的可阅读性。为了规范评论语句中属性词观点的提取,本文构建了评论数据的质量评估体系,以确保提取的属性词观点的质量,为观点提取算法的优化提供了参考依据。最后,以XX净水器的评论数据为例,经过聚类分析、属性词观点提取和整合分析,生成了XX净水器的评价摘要,得到了XX净水器拥有的优点和存在的不足,并对提取的属性词评价观点的应用作了简要分析。通过应用测试表明,本文所采取的评论数据的获取和分析方法是正确的和有效的,所提取的各属性词评价观点对设计人员和用户具有重要意义,为电商平台中评论大数据的获取、分析和应用提供了新的思路和方法。