论文部分内容阅读
随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员日常经济活动的重要研究对象。但电商网站的海量数据中存在大量冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,并且对于各大电商争相竞争的大环境下,如何从多源电商的数据中构建统一的商品查重的规则,也变得十分必要。因此为了使用户能够更好的对比这些信息,就必须对这些重复的数据进行查重检测。本文首先介绍了整篇文章所需要使用的技术。利用自动化测试框架Selenium,来进行数据的抓取,这是整个系统的基础。接着介绍了 wordnet语义标准,本文会利用它的标准来建立表述电商语义树模型的各个节点。利用构造好的标准语义树来进行商品之间相似度的计算。(一)利用selenium框架爬取电商网站的信息。自动化测试框架一般用于web服务的测试,但是本文利用它对于页面js的解析和基于标签和xpath提取页面元素的能力,配合phantomjs无界面浏览器内核,将其用于电商数据的爬取,减少前端页面的渲染时间,提升爬取速度。(二)语义树模型的构建表征电商网站。本文对于各大主流的电商网站的结构进行了调研,比较他们在层级分类上的相似性,将其统一映射到相同结构的语义树上。并且利用wordnet标准语义去统一每一层节点对于不同电商网站商品的描述,将不同的电商网站的商品信息完全统一到同一棵语义树上。(三)利用语义树进行商品查重。因为语义树已经定义好了标准的商品的表述,所以可以通过比较商品在这棵语义树上映射的路径是否相同来判断他们是否属于相同或者相似的商品。(四)电商数据爬取系统的设计与商品相似度比较系统的设计。因为采用树型的结构来描述电商数据,所以数据库的存储结构的设计采用了层级关系模型,这样可以大大减少数据冗余存储。整个服务的设计采用多线程处理方式,能够同时对于多个电商网站同时进行数据的爬取,因为最后他们使用同一个模型表征,存储在同一个数据库中,所以不用担心数据的混淆。商品相似度的比较就是利用这种树型的语义模型来实现每个节点的比较。