论文部分内容阅读
随着电子商务的快速发展,企业之间的竞争越来越激烈。国内电子商务网站商品之间的同质性较强,除价格竞争外,对电子商务网站的数据进行有效分析和挖掘,提出适合企业的有效战略和策略,对企业发展有着重要影响。本文将文献计量学的方法及数据挖掘技术应用到电子商务的研究之中,对于从图情领域角度研究电子商务有一定的参考意义。在这种背景下,本文以国内某知名电子商务网站的销售数据为数据源,使用统计分析法、对比分析法、探索性研究方法和实证研究方法等从宏观和微观两个大的方面对销售数据进行分析和数据挖掘。两部分的关系是递进形式进行的,具体内容如下:文章的第一主题部分是从宏观上阐述了无线终端不同区域的销售概况,探索和验证电子商务网站中存在着二八定律、长尾效应和幂律分布。无线终端销售区域目前集中在经济发达的省市。二八定律是指主营商品与一般商品对整体销售贡献存在着二八定律,即商品种类数量约20%的主营商品的销售额贡献了总销售额的近80%,而种类数量近80%的一般商品仅贡献了总销售的20%左右。长尾效应是指不同等级用户对总订单和总销售额的贡献中等级较低的土星和铜盾会员,贡献订单比例超过50%,贡献销售额接近50%;在不同区域之间,用户对总订单和总金额的贡献情况,我们也发现类似的情况,即位于一般销售区域的用户贡献订单数量超过48%,贡献销售额超过46%。上述情况的长尾效应启迪相关决策者不仅要重点关注忠诚用户和主要销售区域,同时也要关注位于长尾的一般用户和一般销售区域。电子商务中的幂律分布是类比齐普夫定律,将每个用户看做文献中的一个单词,探索用户订单之间是否存在着幂律关系,并借助于Matlab软件,使用最大似然估计方法和KS检验对用户订单进行验证,发现用户订单无论是所有商品还是3C类代表商品用户销售单数据均符合幂律分布,但幂律指数较小,通过对排名靠前的前20名用户和排名最后的10名用户的订单统计时发现用户订单网络没有特别明显的无标度现象,而是符合长尾特征。文章第二部分是从微观上探索用户购买商品或商品小类之间的关联,挖掘关联规则通过借助Weka软件使用FP-Growth算法对图书、3C代表商品类别和3C代表商品三组样本销售数据进行关联规则挖掘,在最小支持度与最小置信度阈值下过滤得到的关联规则,进一步根据提升度、杠杆率和确信度等指标从理论上对得到的关联规则进行分析过滤,并将其中的编号对应实际的商品或商品小类,结合实际情况进行了相关分析和过滤,得到了一些比较实用的关联规则。这些关联规则告诉我们,我们可以在用户购买一种商品时向用户推荐另外关联度商品,或是制定一些促销或是捆绑销售策略,使用户能够在得到自己想要的商品前提下,也能得到优惠。同时发现由于商品数量的众多和用户数量的庞大,在进行实验时,须将关联规则的最小置信度设置较低才能得到所需的关联规则。