论文部分内容阅读
互联网的广泛使用和互联网应用的不断丰富为电子商务蓬勃发展提供了良好的环境和契机。目前淘宝网是我国最具实力的个人对个人的网上交易网站,关于电子商务网络特征的研究主要集中在淘宝网上,都是以电子商务的营销为目的来剖析网上交易行为,主要包括信用评价体制、营销策略、卖家销售参数的统计分析等。本文将从图论的角度来研究电子商务网络,首先通过数据抓取技术得到一个真实的网络数据集,然后在该数据集上分析淘宝网的拓扑特征及其中用户行为特点。目的是探究在线社会网络中的用户行为对网上交易的影响。主要工作包括以下三个方面:第一,由于网络规模非常庞大且网络结构非常复杂,引入抽样技术成为大规模网络数据测量中不可缺少的环节。本文提出了一种适用于二分网络的抽样算法,该算法是通过理论推导和算法实现的适应性修改将适用于普通图的抽样算法MHRW(Metropolis—Hastings Random Walk)算法推广到二分图上。MHRW算法是一种性能比较好的无偏的抽样算法。为了验证该算法在二分图上的抽样性能,本文分别在合成图和实际网络数据集上检测MHRW算法的抽样效果。第二,本文选用Scrapy爬虫框架作为爬取数据的工具。通过对淘宝网页页面格式的深入分析,结合BFS和MHRW两种抽样方法,在5台PC上同时并发连续运行爬虫程序30天,最终得到淘宝分享网络的数据集。本文中列出了数据抓取过程中遇到的主要问题,并通过对问题本质的剖析给出了最终的解决方法。为了分析分享平台与卖家特性的关系,本文还抓取了淘宝网中服装类所有卖家的信息。分析发现:网络中的商家存在短时间内迅速崛起的现象,说明电子商务为新生的有强劲发展实力的卖家创造了良好的环境,为新创业者提供了一个较好的平台。第三,在淘宝分享平台数据集上分析用户行为特征。本文给出了所得数据集的规模参数,分析了买家、宝贝、卖家三类节点的属性特征,进一步给出了卖家与相连买家的各属性之间的关系,最后讨论了在买家分享网络的特点。分析结果表明,淘宝分享网络中买家和宝贝节点的度值大部分处于10~100之间;宝分享平台本质上是大买家为大卖家做广告的一个平台,而其他的中小买家的分享行为只是帮助大买家支撑着这个平台,中小卖家也很少从这个分享平台中获益;最后发现相似买家的分享行为会有越来越相似的趋势,并且这个概率随着时间的推移逐渐增大,另外规模越大的买家团发生相同分享的概率也越大。