基于Scrapy的电子商务网络测量与网络特征分析

被引量 : 18次 | 上传用户:CmMocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的广泛使用和互联网应用的不断丰富为电子商务蓬勃发展提供了良好的环境和契机。目前淘宝网是我国最具实力的个人对个人的网上交易网站,关于电子商务网络特征的研究主要集中在淘宝网上,都是以电子商务的营销为目的来剖析网上交易行为,主要包括信用评价体制、营销策略、卖家销售参数的统计分析等。本文将从图论的角度来研究电子商务网络,首先通过数据抓取技术得到一个真实的网络数据集,然后在该数据集上分析淘宝网的拓扑特征及其中用户行为特点。目的是探究在线社会网络中的用户行为对网上交易的影响。主要工作包括以下三个方面:第一,由于网络规模非常庞大且网络结构非常复杂,引入抽样技术成为大规模网络数据测量中不可缺少的环节。本文提出了一种适用于二分网络的抽样算法,该算法是通过理论推导和算法实现的适应性修改将适用于普通图的抽样算法MHRW(Metropolis—Hastings Random Walk)算法推广到二分图上。MHRW算法是一种性能比较好的无偏的抽样算法。为了验证该算法在二分图上的抽样性能,本文分别在合成图和实际网络数据集上检测MHRW算法的抽样效果。第二,本文选用Scrapy爬虫框架作为爬取数据的工具。通过对淘宝网页页面格式的深入分析,结合BFS和MHRW两种抽样方法,在5台PC上同时并发连续运行爬虫程序30天,最终得到淘宝分享网络的数据集。本文中列出了数据抓取过程中遇到的主要问题,并通过对问题本质的剖析给出了最终的解决方法。为了分析分享平台与卖家特性的关系,本文还抓取了淘宝网中服装类所有卖家的信息。分析发现:网络中的商家存在短时间内迅速崛起的现象,说明电子商务为新生的有强劲发展实力的卖家创造了良好的环境,为新创业者提供了一个较好的平台。第三,在淘宝分享平台数据集上分析用户行为特征。本文给出了所得数据集的规模参数,分析了买家、宝贝、卖家三类节点的属性特征,进一步给出了卖家与相连买家的各属性之间的关系,最后讨论了在买家分享网络的特点。分析结果表明,淘宝分享网络中买家和宝贝节点的度值大部分处于10~100之间;宝分享平台本质上是大买家为大卖家做广告的一个平台,而其他的中小买家的分享行为只是帮助大买家支撑着这个平台,中小卖家也很少从这个分享平台中获益;最后发现相似买家的分享行为会有越来越相似的趋势,并且这个概率随着时间的推移逐渐增大,另外规模越大的买家团发生相同分享的概率也越大。
其他文献
随着通信技术的飞速发展,通信系统装备的尺寸也越来越小,因此对通信元器件如滤波器等要求也日益提高。通信元器件不仅要具有良好可靠的性能、较低的插入损耗,还要求具有足够
新中国成立以来,中埃两国在政治、经济、文化领域继续深化合作,两国关系取得长足发展。两国于1956年5月30日建立外交关系,事实上埃及是第一个承认并于中国建立外交关系,发展
学位
80-90后大学生,以特立独行的处事作风和求变求新的价值取向受到了社会普遍关注,他们既反映新时代文化,又代表未来社会发展方向,蕴含深刻解读价值。大众传媒从80-90后大学生的
近年来,房地产经济活动已经成为全民关注的焦点。一方面,房地产经济已经成为国民经济的支柱产业和重要的增长点,房地产开始进入持续、稳定、快速的发展,目前已进入相对成熟的
精确的移动机器人定位是当今学术研究的重要领域,是机器人自主导航的基础。传统的基于全球定位系统等外部定位方法虽然精度高但是使用条件具有局限性。而利用机器人视觉系统
接触器是一种远距离频繁地接通和断开交直流主电路及大容量控制电路电器。本课题利用专业电磁场分忻软件Ansoft M.dxwell 3D,对直流接触器的动、静态性能进行了仿真分忻,主要工
汉维语由于各自的社会背景、生活习惯、宗教信仰的不同,在词语选择、词义处理方面也不尽相同。本文从维汉文化差异的角度入手,探讨词语翻译和词义处理的方法,有助于双语学习
目的(1)检测富含半胱氨酸的酸性蛋白(secreted protein, acidic and rich in cysteine,SPARC)、基质金属蛋白酶-2(Matrix Metalloproteinase2,MMP-2)与血管内皮生长因子(vasc
物流安全是航空业发展的重要基础,但目前国内航空物流业的技术发展还不能满足行业进步的需求,面临着前所未有的压力和挑战。如航空食品物流仍然采用人工记录方式,并附带纸质
音乐教育价值观作为理论研究的基础性课题,对音乐教学实践具有根本性的指导作用。音乐教育价值观具有一定历史演进规律,通过研究特定阶段音乐教育的内涵和特点,有助于为改进