基于数据挖掘的淘宝商品竞争力分析系统的设计与实现

被引量 : 0次 | 上传用户:lairr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,科技发展日新月异,网络科技的普及为新兴的电子商务交易注入了崭新的活力,不仅减少了人力物力的损耗,而且创造了巨额的商业利润。在电子商务交易中,顾客通过网络购买商品,只能浏览网页图片信息介绍,不能实际观察商品,对电子商务交易的真实性容易产生怀疑。在这个过程中,一方面需要网络政策法规的约束,另一方面也要对交易商品进行仔细对比和审查。与此同时,商户也需要对出售的商品进行分析,了解同行业商品的优劣和价格走向,根据市场信息做出商业决策。但是目前网络上商品种类繁多,数量巨大,对商品信息的获取并非易事。本文主要通过网络爬虫的方法采集在网络交易中具有代表性的天猫商城在售商品信息,并对商品各种信息进行分析和判断,得到决策支持,从而满足交易双方的需求。本系统主要是应用网络爬虫技术对天猫商城在线商品信息进行采集,并对采集的网页信息进行筛选,提取出商品类别、商品标签、商品品牌、商品详细介绍、评论信息及店铺介绍等信息,并将这些数据经过系统处理,然后存入数据库中。采用主题爬虫的方式进行数据采集,有利于页面信息的分析,方便URL链接的定位,减少提取次数提高提取信息的效率,而且可以灵活设定提取开始的类别及层次,能够有效保证采集数据的真实性和实时性。对于采集的数据主要通过数据挖掘的方式进行分析。通过对商品介绍、用户评价、店铺介绍等信息的整理和分析,可以找出销售、价格、发货等方面的排名情况,进而可以分析商品的潜在价值,获取该商品的竞争力排名,可以成为买家置信商品理论依据。更深的层次可以挖掘交易双方的交易行为等情况,方便商家做出策略调整以提高销售量或应时上新。目前本系统可以正常运行,但工作效率随着网络数据的增加还有提升空间。未来的发展方向是多线程并发,大规模数据采集和整理。下一步工作将着重发展多线程数据采集,对更新数据的定点提取方面进行完善,并加强分析及数据挖掘的范围与深度。
其他文献
1958年,北京电视台播出我国第一部电视剧——《一口菜饼子》,经过五十余春秋的发展洗礼,电视媒介和电视剧已融入人们生活的点滴,成为不可取代的角色。随着电视剧成长发展,翻
腐败一直是转型经济体面临的主要问题,文章利用中国分省1995~2004年的数据,在综合考虑了其他因素后,发现中央针对各省的转移支付会诱发地方政府腐败,转移支付每增加1%,会使得
本文所研究的稀土镁合金叶片是某产品上的重要零件,该零件形状复杂、尺寸精度要求高、室温和高温性能都有较高要求。针对零件特殊的服役环境,结合轻量化的要求,本文采用Mg-13Gd-
目的检测急性胰腺炎(AP)大鼠外周血淋巴细胞亚群,探讨AP病程进展过程中免疫状态改变的原因。方法 60只SPF级雄性Wistar大鼠随机分为空白组、假手术组、AP组(AP 6 h组、12 h组
凌海市境内的大凌河、小凌河流域的河道堤防设计标准较低,已不能满足防洪标准的要求。为此,辽宁省加强了凌河流域河道整治改善河道生态工程建设,加快污染严重江河湖泊水环境
文章通过对智能化立体车库的研究,阐述了中国目前发展立体车库的重要性,介绍了目前应用较广的几种立体车库。主要比较分析了两种典型的立体车库的存取车优化控制策略,即选取
我国县乡基层广播电视人才队伍及用人机制的现状很不适应现代广播电视发展的要求。文章分析了产生这个问题的根源 ,指出应从战略高度看待这个问题。加强人才队伍的建设力度和
夜视系统刚开始是用在夜间发现敌方目标并对其定位上,在世界历史的各种战争中,人们很看重黑夜的掩护作用,已达到白天难以达到的目的。再往后,慢慢的延伸到了包括飞行导航、各
针对一种大型场馆电动特勤车的摆杆式非独立后悬架进行了Adams/Car模型开发创建,丰富了Adams/Car悬架模板库。在此基础上,采用同向激振分析对此后悬架进行了动力学仿真与分析
在各种国际会议、商务洽谈中,视译是一种十分重要的口译类型。在英汉视译中,英语复合句十分常见,但其却是一大难点。因此,在本实践报告中,笔者通过对视译、复合句分别进行简