论文部分内容阅读
互联网技术和移动网络技术飞速发展的今天,电子商务和移动商务已经渗透到了生活的方方面面,电商平台上用户行为的分析已经变成企业进行消费者行为分析的关键内容之一。评论数据作为大型电子商务平台上少有的可以被开放获得的用户行为数据,是进行用户行为分析的一个重要切入点。但电商平台的用户评论数据往往数量极其巨大,并且易受社会经济环境的影响,表现出较强的大规模性、动态性和复杂性。如何从海量的、文本类型的评论中分析用户的兴趣和偏好,提取出用户关心的话题,以及满意和不满意的商品及其属性,成为新时代电子商务企业提升商品和服务质量,把握社会的流行趋势,以及对用户进行精准营销时必须面对和解决的基础性、关键性的问题。为此,本文收集了美国亚马逊平台上800多万条用户对电子和图书类商品的评论数据,运用统计方法实证分析了评论数据中的特点和进行数据挖掘时存在的难点,并以评论数据中的“用户情感分析”和“用户偏好/兴趣挖掘”这两种消费者行为分析任务为目标,提出了评论数据的预处理方法,即评论数据的特征工程,以此提升用户情感分析中经常使用的分类方法的效果;为了应对评论数据的动态性和实时性等特点,并进一步分析评论数据中的观点子模式,本文还提出了一种增量式的分类算法;为了挖掘用户兴趣的动态变化规律,本文将用户对商品主题的关注构建成了时间序列,并拟合了时序预测模型,为个体用户的动态兴趣画像提供了依据;在个体用户兴趣时序分析的基础上,本文还对群体兴趣社区进行了发掘,以了解用户群体兴趣网络的拓扑结构特点;最后,为了验证所提出的用户兴趣挖掘的有效性,本文构建了一种基于用户兴趣序列和用户兴趣社区的推荐系统,实现了针对用户个体兴趣的精准推荐,并从推荐系统角度对本文兴趣挖掘的有效性进行评估。具体研究内容和相关结论如下:(1)基于线性与非线性空间变换的特征工程方法。为解决用户情感分析时评论数据的子模式分布过于复杂、数据特征与分类问题不相关、数据规模过大等问题,本部分研究提出了数种线性与非线性的空间变换方法,包括奇异值分解、度量学习、Nystr?m变换以及两种综合空间变换方法。实验结果表明,提出的方法显著提高了k近邻、支持向量机、逻辑斯蒂回归、线性判别分析等传统分类器的准确率和在大规模评论数据集上的分类速度,有效提高了用户情感分析的效率和效果。(2)增量式局部学习的分类器。针对传统的k-NN、SVM等分类器难以获得数据的分布特征,无法对评论数据中的用户观点子模式进行分析等问题,该部分提出了一种新的基于竞争型学习的分类算法:AdaHS,该算法适用于局部模式分布复杂的数据分布场景;为了增强该算法对复杂簇边界的适应能力,本部分还提出了该算法的核变换版本:Nys-AdaHs;实验结果表明,该算法具有较高的分类准确率,并且兼具监督式聚类功能,对于评论中用户认知和观点子模式的分析、商品和服务质量的追踪和改善等应用场景都有实用价值。(3)用户对商品主题兴趣的时间序列分析。为了分析用户对商品主题的动态关注过程,“评论”在该部分被看作了一种联结用户与商品的关系型中间数据。通过将商品聚类为“商品主题”,和基于用户每个月对“商品主题”的评论数量的统计,构建了用户对商品主题的兴趣时间序列;然后基于兴趣序列的模型拟合与预测实验,研究了用户兴趣时间序列的动态特性,并对兴趣序列预测的准确性评估结果进行了讨论。(4)用户兴趣网络与推荐系统。为了研究用户动态兴趣序列的群体特性,本部分首先提出了基于“动态时间规整”的用户兴趣序列相似性比较方法,然后构建了用户兴趣群体网络,并引入Fast Unfolding社区发现算法对兴趣网络中的社区特性进行分析;为了评估和验证动态兴趣挖掘的有效性,本部分基于上一部分对用户兴趣序列的预测和本部分兴趣社区发现的结果,构建了推荐系统,进行了推荐实验。实现结果表明,用户兴趣网络具有明显的社区特性,新提出的基于用户动态兴趣挖掘的推荐方法在各个评论指标上都大幅超越了传统的基于静态数据的推荐方法。本文的研究从理论上打破了传统上关于数据的“独立同分布”、“用户偏好不变”等假设,具有一定的理论性创新。所提出的基于电商评论数据的用户行为分析和挖掘的方法对于其它领域的数据挖掘研究也有一定的理论参考价值;在应用方面,对电子商务企业进行消费者行为分析和精准营销实践也具有一定的借鉴意义。