论文部分内容阅读
当今社会,科技发展日新月异,网络科技的普及为新兴的电子商务交易注入了崭新的活力,不仅减少了人力物力的损耗,而且创造了巨额的商业利润。在电子商务交易中,顾客通过网络购买商品,只能浏览网页图片信息介绍,不能实际观察商品,对电子商务交易的真实性容易产生怀疑。在这个过程中,一方面需要网络政策法规的约束,另一方面也要对交易商品进行仔细对比和审查。与此同时,商户也需要对出售的商品进行分析,了解同行业商品的优劣和价格走向,根据市场信息做出商业决策。但是目前网络上商品种类繁多,数量巨大,对商品信息的获取并非易事。本文主要通过网络爬虫的方法采集在网络交易中具有代表性的天猫商城在售商品信息,并对商品各种信息进行分析和判断,得到决策支持,从而满足交易双方的需求。本系统主要是应用网络爬虫技术对天猫商城在线商品信息进行采集,并对采集的网页信息进行筛选,提取出商品类别、商品标签、商品品牌、商品详细介绍、评论信息及店铺介绍等信息,并将这些数据经过系统处理,然后存入数据库中。采用主题爬虫的方式进行数据采集,有利于页面信息的分析,方便URL链接的定位,减少提取次数提高提取信息的效率,而且可以灵活设定提取开始的类别及层次,能够有效保证采集数据的真实性和实时性。对于采集的数据主要通过数据挖掘的方式进行分析。通过对商品介绍、用户评价、店铺介绍等信息的整理和分析,可以找出销售、价格、发货等方面的排名情况,进而可以分析商品的潜在价值,获取该商品的竞争力排名,可以成为买家置信商品理论依据。更深的层次可以挖掘交易双方的交易行为等情况,方便商家做出策略调整以提高销售量或应时上新。目前本系统可以正常运行,但工作效率随着网络数据的增加还有提升空间。未来的发展方向是多线程并发,大规模数据采集和整理。下一步工作将着重发展多线程数据采集,对更新数据的定点提取方面进行完善,并加强分析及数据挖掘的范围与深度。