基于语义的电商网页内容查重研究及系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:LITAO14073164
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网民增长和电子商务的蓬勃发展,电商网站的规模越来越大,电商网站上的数据呈现爆炸式增长。由于电子购物也成越来越成为了人们日常生活的一部分,电商网站的数据也就成为研究人员日常经济活动的重要研究对象。但电商网站的海量数据中存在大量冗余数据,而大量的冗余数据会严重影响电商数据收集的时间效率以及数据的准确度,并且对于各大电商争相竞争的大环境下,如何从多源电商的数据中构建统一的商品查重的规则,也变得十分必要。因此为了使用户能够更好的对比这些信息,就必须对这些重复的数据进行查重检测。本文首先介绍了整篇文章所需要使用的技术。利用自动化测试框架Selenium,来进行数据的抓取,这是整个系统的基础。接着介绍了 wordnet语义标准,本文会利用它的标准来建立表述电商语义树模型的各个节点。利用构造好的标准语义树来进行商品之间相似度的计算。(一)利用selenium框架爬取电商网站的信息。自动化测试框架一般用于web服务的测试,但是本文利用它对于页面js的解析和基于标签和xpath提取页面元素的能力,配合phantomjs无界面浏览器内核,将其用于电商数据的爬取,减少前端页面的渲染时间,提升爬取速度。(二)语义树模型的构建表征电商网站。本文对于各大主流的电商网站的结构进行了调研,比较他们在层级分类上的相似性,将其统一映射到相同结构的语义树上。并且利用wordnet标准语义去统一每一层节点对于不同电商网站商品的描述,将不同的电商网站的商品信息完全统一到同一棵语义树上。(三)利用语义树进行商品查重。因为语义树已经定义好了标准的商品的表述,所以可以通过比较商品在这棵语义树上映射的路径是否相同来判断他们是否属于相同或者相似的商品。(四)电商数据爬取系统的设计与商品相似度比较系统的设计。因为采用树型的结构来描述电商数据,所以数据库的存储结构的设计采用了层级关系模型,这样可以大大减少数据冗余存储。整个服务的设计采用多线程处理方式,能够同时对于多个电商网站同时进行数据的爬取,因为最后他们使用同一个模型表征,存储在同一个数据库中,所以不用担心数据的混淆。商品相似度的比较就是利用这种树型的语义模型来实现每个节点的比较。
其他文献
玻璃幕墙将建筑物外围护的防风、遮雨、采光、隔热保温等使用功能与建筑外墙装饰相结合,形成融建筑技术、建筑艺术为一体的建筑外围护结构,已在我国高层和超高层建筑中广泛应用
目的:探讨盐酸纳美芬联合醒脑静注射液对急性酒精中毒昏迷患者的疗效及血清β-内啡肽(β-EP)、超氧歧化酶(SOD)、丙二醛(MDA)水平的影响。方法:研究对象选自我院2015年2月~20
潘锡柔先生毕业于1958年中央美术学院华东分院雕塑系(现中国美术学院雕塑系)是新中国培养的第一批雕塑艺术家。在其50余年的创作历程中,各个时期均产生大量不同风格,不同表现手法
沙拐枣为蓼科灌木,果实成熟后,形态各异。沙拐枣的种子坚硬,果皮厚,带刺毛,发芽困难,通常发芽率为30-40%。但对沙拐枣种子处理后,发芽率可达85%,育苗成活率达到80%。因此,种
地理信息系统(Geographic Information System,简称GIS)是一项以计算机为基础的新兴学科,是管理和研究空间数据的技术系统。在计算机软硬件支持下,它可以对空间数据按照地理坐
对雏鸡成活率的探讨和研究是提高养鸡场经济效益的关键,由于雏鸡相对来说体质较弱,因此是养鸡场重点保护对象,提高雏鸡成活率也成为了养鸡场需要重点突破的难关,所有事项都需