基于网络爬虫的电商比价及推荐系统的设计与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:freebits
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的飞速发展,通过网络购物的消费者越来越广泛。众多的电子商务平台在为消费者提供更多的商品选择的同时,也在一定程度上增加了消费者快速挑选出满意商品的困难性。比价类网站通过网络爬虫从各个电商平台抓取最新商品信息,可以为用户集中展示不同电商网站同一商品的价格对比信息,为用户选择更加优惠的电商平台提供了参考。但是,比价网的商品展示模式多为被动的展示,即系统仅按用户搜索关键词显示相关商品信息,没有主动向用户推荐商品。本文结合协同过滤推荐算法,在比价网上增加商品推荐系统,实现比价网由被动展示模式向可进行个性化推荐的主动展示模式的转变。针对传统协同过滤算法无法及时适应用户兴趣变化的问题,本文提出用户兴趣时间性的概念,并结合信息熵对用户相似度计算方法进行改进,提出基于信息熵和用户兴趣时间性的协同过滤算法(IEICFA)作为推荐系统的核心算法。在爬取各电商网站商品信息时,为解决通用网络爬虫无法满足不同电商平台商品爬取需求的限制,本文针对电商平台的结构差异,对主要电商网站分别定制了不同的爬取策略,实现了自定义的网络爬虫,以完成对商品信息的采集工作,为系统的比价和推荐功能提供原始商品数据。本文最后设计并实现了基于网络爬虫的电商比价及推荐原型系统,可向用户提供注册登录、搜索比价、商品推荐和评分评价等功能。实现的自定义网络爬虫可适应网站的结构特征,完成对商品数据进行采集。提出的IEICFA推荐算法能够适应用户兴趣随时间变化的特性,可以有效提高推荐的精确度。
其他文献
本文主要讨论了民族高校口译课程与教学的难点与突破点,概述了目前的口译语料库的建设与发展,结合口译教学特点,探讨了如何结合口语语料库开展口译教学。
利用《中国生物医学文献数据库》(CBMdisc)和《中国期刊网》(CNKI)全文数据库中的数据,采用文献计量的方法,对《心理学报》近8年载文、引文等情况略作统计分析。
调查了外秦淮河基本情况及存在的突出问题,确定了秦淮河治理、管理、保护的主要目标,提出了河道资源管理、水污染防治及水环境提升和水安全提升等方面重点任务和措施,制定了
研究了不同食物(斜生栅藻Scenedesmus obliquus)浓度对拟同形潘(Daphnia similoides)生长繁殖的影响,实验共设7个浓度组(有机碳浓度分别为0.25,0.75,1.5,5.5,11,16,20mg·L-1)。结果表明拟
为了揭示我国口译研究目前的状况,以《中国翻译》《中国科技翻译》和《上海翻译》三大核心期刊在2011-2017年间发表的口译研究文章为研究样本,从论文发表数量、研究主题及研
随着动力传动系统从内燃机向电动机发展,汽车行业正在经历史上最大的变化时期之一。虽然现代电动汽车(EV)续航里程方面的技术进展显著,但对于采用的最大障碍之一是消费者担心