论文部分内容阅读
2013年10月4日,作者使用Java程序对京东商城在线商品评论信息进行抽样提取。基于采集到的32333个账号和229530条评论数据,站在账号的角度进行聚集,生成了8382个账号的在线评论特征作为研究样本。而以账号在线评论特征为研究对象的论文国内外相对较少,这也是本文的创新点所在。本文主要的研究工作在于通过统计学与数据挖掘相关技术,围绕探索账号在线评论特征及其与账号等级的内在关联为主线,从账号在线评论特征的统计描述、不同等级的账号在线评论特征差异性分析、账号在线评论内部特征与账号等级相关性分析、账号在线评论特征的聚类分析四个方面进行分析研究,并基于上述四个方面的分析结果提出最终的研究结论和建议。这四个方面的分析结果如下:第一,通过构造账号在线评论特征的描述统计量、密度直方图和核密度函数,发现了发表过评论的账号总体近期评论参与度偏低、75%账号发表评论数量在25条以下、更倾向于打高分、互动性接近冰点、发表评论尽可能简短、评论态度偏谨慎等特点。第二,通过单因素方差分析的一整套理论对账号等级的各个水平在评论特征的差异性进行分析,结果发现:评论总数、评论与购买时间间隔的均值随着账号等级的升高而增加,最近一次评论距信息提取日天数随账号等级的升高而缩短,钻石以上会员的打分均值高于其他等级会员,账号等级的各个水平在回复率上有显著差异,注册会员在心得_平均使用_字数这一指标上低于其他等级会员。第三,采用CFS属性选择理论对账号在线评论内部特征以及其与账号等级的关联进行分析。结果发现:最近一次评论距信息提取日天数、评论总数和回复率这三个指标的组合具有自相关程度弱但是与账号等级强相关的特点。采用因子分析理论将账号在线评论特征进行公共因子的提取,结果表明:最近一次评论距信息提取日天数、评论总数、回复率和评论与购买时间间隔的均值的线性组合作为第一个公共因子,该指标体现了账号的评论卷入度。将打分均值和心得_平均_使用字数作为第二个公共因子,该指标体现了账号的满意度。第四,采用CascadeSimpleKMeans、XMeans和EM三种聚类算法,并引入基于似然值的聚类评估准则对三种算法的运行效果进行比对。最终,选择EM算法并得到9类人群。进一步地,构造了9类簇和账号等级的列联表进行了二者的关联分析。基于上述四个方面的分析结果,给出了四点研究结论和建议:1、评论卷入度、账号满意度和账号等级的关系;2、针对性的提升丧失评论积极性人群的评论卷入度;3、给予购物体验失败用户更多关注;4、改进现有评论奖励机制。(注:由于京东商城诸多机制改进频繁,请特别留意1.5节相关说明)