论文部分内容阅读
[摘要] 及时、准确、全面地掌握商情是在现代商业竞争中把握主动权的重要前提,互联网的快速发展使其成为获得商情的重要来源。传统搜索引擎不能满足现代商情采集的需求,开发专业商情采集系统的需求日益迫切。根据“经销商”的经营特点,详细讨论Web商情采集系统的需求;对网上商情来源网站进行了分类,讨论了各类网站的信息特点;提出一种Web商情采集系统结构;讨论了系统的关键技术、知识产权问题和系统扩展方向。
[关键词] Web 商情 经销商 主题爬虫
现代商业竞争日益激烈,及时、准确、全面地掌握商业情报(商情)是在竞争中把握主动权的重要前提。随着互联网的快速发展,越来越多的公司企业、政府机关和个人把信息发布到网上以展示自己、联系客户、实施供销等,网络已成为获得商业情报的重要途径。使用传统的搜索引擎在输入关键字后,要靠人工去点击一个个网页,查阅信息,靠复制粘贴等操作来整理保存结果,效率很低。现代搜索引擎越来越向专业和实用方向发展,目前最典型和成功应用的专业搜索引擎是旅游搜索,网上商业、经济信息搜索正在引起重视。Web商情采集系统是能实时搜集网上商情、进行跟踪监测、将信息进行分类整理等功能的系统。目前已有一些类似的通用系统被开发出来,如:创鸿商业信息采集系统商情版、通科供求情报通等。Web商情采集系统是应需求产生的,不同公司企业和个人的目标不同,需求也不同,加上网络的广泛性和虚拟性,通用系统很难满足个性需求。本文以经销商为例,详细分析了用户的需求,分析了网络各类资源的特性,提出了一种系统设计模型,并讨论了其关键技术和发展问题。
一、Web商情采集系统需求
现代社会是商品社会,几乎每个企业、政府部门、学校、个人都要了解商情,但由于身份和目的不同,需求的具体内容、细节和程度有所不同。本文所谓的“经销商”泛指各级代理商、分销商、批发商、零售商等,“商”可以是企业或个人。
商业情报是一种情报,采集商情要遵循情报采集规律。先规划和定向,确定需求,再根据需求去采集才能做到有的放矢,才会采集到有意义的信息,支持自身的决策。经销商经销的产品一般都在一个或几个行业或专业领域内,其兴趣主要在其经营专业范围内的信息。作为商家,他们主要关心行业中的主要生产企业信息、行业内其他经销商信息、专业产品的供求信息、价格水平、折扣信息等。因此,Web商情采集系统至少应具有如下功能:
1.搜集和跟踪行业中主要企业的发展状况情报。包括企业的产品生产和销售信息、新产品信息、广告投入信息、财务状况信息、管理状况信息等。
2.搜集和跟踪行业内其他经销商的商业信息。包括他们的地域、规模、客户群、经销状况、财务和管理状况等。
3.搜集和跟踪专业产品供求信息、价格信息等。
4.自动功能和手工操作相结合。系统应根据已知种子网站自动搜索其他相关网站,并根据网站的更新频率自动调整采集周期,对采集结果自动分类整理等。同时由于系统信息的复杂性及网络的虚拟性,系统要根据一定策略计算各网站的可信度,接受人工设置的单项检索,允许手工调整、确认各网站的可信度等。
5.软件系统应具备的其他管理功能,如用户管理、备份、清理、日志功能等。
二、Web商情来源网站的分类及特点
互联网上的网站多种多样,其信息规模是海量的,是虚拟的。覆盖所有网站的采集是不可能的,对专业需求也是不必要的,同时,对采集的信息需要以一定策略计算其可信度。对商情采集系统来说,要采集的对象主要是几类网站,各类网站的重要性、可信度也不同,下面简要叙述。
1.生产企业的网站是采集企业信息的主要源头。企业一般会把本企业重要新闻、行业重要新闻、本企业产品、管理机构、主要代理商情况发布到自己的网站,这些是了解一个企业的重要信息。另外,企业很少会在自己网站发布虚假消息,这类网站可信度很高。
2.规模较大的经销商会建立自己的网站以发布产品供应信息和联系客户。其上的信息除包含经销商自己的营销信息,还会有与之相关的其他经销商的信息及行业信息,这类网站可信度也很高。
3.各类电子商务网站当然是商业情报的主要来源。从中可以采集到各类商品的规格、零售价格、批发价格、折扣价格、销售情况等。电子商务网站种类很多,信息更新频繁,其可信度主要是根据网站的管理体制来确定,具体的信息可靠性由发布人的信誉来确定。然而发布人的信誉信息很难获得,网上的可信度评价只能作为参考。
4.各类商情网站是了解供需情况的重要网站,个人和企业均可把自己的供需信息在其上发布。但是,在这类网站发布商情具有随意性,其中信息的可信度没有保证,也主要由网站的机制和发布人的信誉来估计。
5.各级政府网站的行业新闻、财务报告是较可靠的商情来源,其信息更新不频繁,更新周期有规律,但信息相对较少。
6.一些市场研究机构和情报公司提供收费的商情报告,如中国渔业贸易有限公司提供的《中国渔业贸易商情快递》。如果向他们订阅,可以定期收到报告。这些报告可信度较高,综合性较强,可以作为系统信息保存。
7.除了前述的五类网站,其他网站上也会可能会有重要的信息要关注,如:一些企业、学校、政府网站的招标公告等。对这类信息主要应根据用户的设置有针对性的采集信息,大海捞针可能没效率,搜索结果用户也不一定感兴趣。
三、Web商情采集系统结构模型
根据前述的需求和信息来源分析,我们提出一种Web商情采集系统结构,如图所示。
Web商情采集系统结构图
整个系统由数据存储、数据管理、业务逻辑、用户界面四层构成。在数据存储层,系统中要存放URL种子,最初的URL种子是由用户指定的一些网址,系统运行中会不断选择有一定可信度的网站添加到其中,逐步得到较稳定的URL种子集;各类目录是支持系统信息表示的目录,同时存放相关的属性信息,如企业目录、经销商目录、地域目录、可信度目录等,这些目录也是随系统运行动态维护的;商情信息是系统的主体数据,存放分类的商情。
数据管理模块是管理数据的类,它的功能是根据上层的数据查询修改命令,完成对数据的操作。
主要业务逻辑层包括了系统的主要功能模块。每次开始采集,系统根据现存URL种子集生成一个URL队列;页面信息采集模块根据URL队列信息进行采集,提取页面主要信息存放到临时文件中,同时提取页面链接加入URL种子队列;临时文件中数据经判断、分类、整理,将信息存入商情信息文件中;直到URL种子集中的网址搜索完成,这个过程是爬行搜索网页、提取、整理信息的过程。
用户界面是系统的用户接口,接收用户的设置、要求,将结果反馈给用户。
四、系统讨论及结束语
1.Web信息采集系统是一种主题爬虫。其关键有二:一是采用合适的搜索算法,实现一定的查全率,并防止它跟随链接无目的漫游及产生循环采集;二是运用人工智能技术进行主题识别和预测及提取主题信息。
2.新的知识产权法规定网络出版物同其他任何出版物一样都受到知识产权的保护,在网上采集信息有侵犯知识产权的可能。由于系统能搜集到的信息都是网上公开的信息,并且,系统对网页上的文本,是提取出其中的信息保存下来,一般不会保存原文,所以不会构成侵权。
3.本系统只是设置了采集、整理功能,随着信息的积累,系统可以扩展数据挖掘、知识发现等功能,并可与企业自身的ERP系统有效整合,使其成为集成的决策支持系统。
Web采集系统是应互联网的发展和用户的需求而产生的,目前已有的系统均不成熟,运行效率和结果都不能满足用户要求,所以对其系统需求、结构、关键技术的深入研究有较深远的意义。
参考文献:
[1]杨丽萍马继涛张虹霞:网络搜索引擎分类与发展[J].情报学报, 2006,25(10):421~424
[2]侯福丽:网上经济信息资源检索方略[J].商场现代化,2007,4(下旬刊):379~380
[3]创鸿商业信息采集系统商情版.htpp://www.hztl.com.cn/suite/webcollecting.htm,浏览日期:2007,5
[4]通科供求情報通.http://www.wanglue.net/,浏览日期:2007,5
[5]《中国渔业贸易商情快递》介绍.http://www.sohu.net/supply/coms122/supply3668965.html, 浏览日期:2007,5
[6]钟常青杨道玲:Web 资源保存中的法律问题探讨.情报理论与实践,2006,29(3):281~284
[7]胡爱华卢芸杨郁池:电子商务中数据挖掘方法的应用[J].商场现代化,2007,4(上旬刊):103~104
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
[关键词] Web 商情 经销商 主题爬虫
现代商业竞争日益激烈,及时、准确、全面地掌握商业情报(商情)是在竞争中把握主动权的重要前提。随着互联网的快速发展,越来越多的公司企业、政府机关和个人把信息发布到网上以展示自己、联系客户、实施供销等,网络已成为获得商业情报的重要途径。使用传统的搜索引擎在输入关键字后,要靠人工去点击一个个网页,查阅信息,靠复制粘贴等操作来整理保存结果,效率很低。现代搜索引擎越来越向专业和实用方向发展,目前最典型和成功应用的专业搜索引擎是旅游搜索,网上商业、经济信息搜索正在引起重视。Web商情采集系统是能实时搜集网上商情、进行跟踪监测、将信息进行分类整理等功能的系统。目前已有一些类似的通用系统被开发出来,如:创鸿商业信息采集系统商情版、通科供求情报通等。Web商情采集系统是应需求产生的,不同公司企业和个人的目标不同,需求也不同,加上网络的广泛性和虚拟性,通用系统很难满足个性需求。本文以经销商为例,详细分析了用户的需求,分析了网络各类资源的特性,提出了一种系统设计模型,并讨论了其关键技术和发展问题。
一、Web商情采集系统需求
现代社会是商品社会,几乎每个企业、政府部门、学校、个人都要了解商情,但由于身份和目的不同,需求的具体内容、细节和程度有所不同。本文所谓的“经销商”泛指各级代理商、分销商、批发商、零售商等,“商”可以是企业或个人。
商业情报是一种情报,采集商情要遵循情报采集规律。先规划和定向,确定需求,再根据需求去采集才能做到有的放矢,才会采集到有意义的信息,支持自身的决策。经销商经销的产品一般都在一个或几个行业或专业领域内,其兴趣主要在其经营专业范围内的信息。作为商家,他们主要关心行业中的主要生产企业信息、行业内其他经销商信息、专业产品的供求信息、价格水平、折扣信息等。因此,Web商情采集系统至少应具有如下功能:
1.搜集和跟踪行业中主要企业的发展状况情报。包括企业的产品生产和销售信息、新产品信息、广告投入信息、财务状况信息、管理状况信息等。
2.搜集和跟踪行业内其他经销商的商业信息。包括他们的地域、规模、客户群、经销状况、财务和管理状况等。
3.搜集和跟踪专业产品供求信息、价格信息等。
4.自动功能和手工操作相结合。系统应根据已知种子网站自动搜索其他相关网站,并根据网站的更新频率自动调整采集周期,对采集结果自动分类整理等。同时由于系统信息的复杂性及网络的虚拟性,系统要根据一定策略计算各网站的可信度,接受人工设置的单项检索,允许手工调整、确认各网站的可信度等。
5.软件系统应具备的其他管理功能,如用户管理、备份、清理、日志功能等。
二、Web商情来源网站的分类及特点
互联网上的网站多种多样,其信息规模是海量的,是虚拟的。覆盖所有网站的采集是不可能的,对专业需求也是不必要的,同时,对采集的信息需要以一定策略计算其可信度。对商情采集系统来说,要采集的对象主要是几类网站,各类网站的重要性、可信度也不同,下面简要叙述。
1.生产企业的网站是采集企业信息的主要源头。企业一般会把本企业重要新闻、行业重要新闻、本企业产品、管理机构、主要代理商情况发布到自己的网站,这些是了解一个企业的重要信息。另外,企业很少会在自己网站发布虚假消息,这类网站可信度很高。
2.规模较大的经销商会建立自己的网站以发布产品供应信息和联系客户。其上的信息除包含经销商自己的营销信息,还会有与之相关的其他经销商的信息及行业信息,这类网站可信度也很高。
3.各类电子商务网站当然是商业情报的主要来源。从中可以采集到各类商品的规格、零售价格、批发价格、折扣价格、销售情况等。电子商务网站种类很多,信息更新频繁,其可信度主要是根据网站的管理体制来确定,具体的信息可靠性由发布人的信誉来确定。然而发布人的信誉信息很难获得,网上的可信度评价只能作为参考。
4.各类商情网站是了解供需情况的重要网站,个人和企业均可把自己的供需信息在其上发布。但是,在这类网站发布商情具有随意性,其中信息的可信度没有保证,也主要由网站的机制和发布人的信誉来估计。
5.各级政府网站的行业新闻、财务报告是较可靠的商情来源,其信息更新不频繁,更新周期有规律,但信息相对较少。
6.一些市场研究机构和情报公司提供收费的商情报告,如中国渔业贸易有限公司提供的《中国渔业贸易商情快递》。如果向他们订阅,可以定期收到报告。这些报告可信度较高,综合性较强,可以作为系统信息保存。
7.除了前述的五类网站,其他网站上也会可能会有重要的信息要关注,如:一些企业、学校、政府网站的招标公告等。对这类信息主要应根据用户的设置有针对性的采集信息,大海捞针可能没效率,搜索结果用户也不一定感兴趣。
三、Web商情采集系统结构模型
根据前述的需求和信息来源分析,我们提出一种Web商情采集系统结构,如图所示。
Web商情采集系统结构图
整个系统由数据存储、数据管理、业务逻辑、用户界面四层构成。在数据存储层,系统中要存放URL种子,最初的URL种子是由用户指定的一些网址,系统运行中会不断选择有一定可信度的网站添加到其中,逐步得到较稳定的URL种子集;各类目录是支持系统信息表示的目录,同时存放相关的属性信息,如企业目录、经销商目录、地域目录、可信度目录等,这些目录也是随系统运行动态维护的;商情信息是系统的主体数据,存放分类的商情。
数据管理模块是管理数据的类,它的功能是根据上层的数据查询修改命令,完成对数据的操作。
主要业务逻辑层包括了系统的主要功能模块。每次开始采集,系统根据现存URL种子集生成一个URL队列;页面信息采集模块根据URL队列信息进行采集,提取页面主要信息存放到临时文件中,同时提取页面链接加入URL种子队列;临时文件中数据经判断、分类、整理,将信息存入商情信息文件中;直到URL种子集中的网址搜索完成,这个过程是爬行搜索网页、提取、整理信息的过程。
用户界面是系统的用户接口,接收用户的设置、要求,将结果反馈给用户。
四、系统讨论及结束语
1.Web信息采集系统是一种主题爬虫。其关键有二:一是采用合适的搜索算法,实现一定的查全率,并防止它跟随链接无目的漫游及产生循环采集;二是运用人工智能技术进行主题识别和预测及提取主题信息。
2.新的知识产权法规定网络出版物同其他任何出版物一样都受到知识产权的保护,在网上采集信息有侵犯知识产权的可能。由于系统能搜集到的信息都是网上公开的信息,并且,系统对网页上的文本,是提取出其中的信息保存下来,一般不会保存原文,所以不会构成侵权。
3.本系统只是设置了采集、整理功能,随着信息的积累,系统可以扩展数据挖掘、知识发现等功能,并可与企业自身的ERP系统有效整合,使其成为集成的决策支持系统。
Web采集系统是应互联网的发展和用户的需求而产生的,目前已有的系统均不成熟,运行效率和结果都不能满足用户要求,所以对其系统需求、结构、关键技术的深入研究有较深远的意义。
参考文献:
[1]杨丽萍马继涛张虹霞:网络搜索引擎分类与发展[J].情报学报, 2006,25(10):421~424
[2]侯福丽:网上经济信息资源检索方略[J].商场现代化,2007,4(下旬刊):379~380
[3]创鸿商业信息采集系统商情版.htpp://www.hztl.com.cn/suite/webcollecting.htm,浏览日期:2007,5
[4]通科供求情報通.http://www.wanglue.net/,浏览日期:2007,5
[5]《中国渔业贸易商情快递》介绍.http://www.sohu.net/supply/coms122/supply3668965.html, 浏览日期:2007,5
[6]钟常青杨道玲:Web 资源保存中的法律问题探讨.情报理论与实践,2006,29(3):281~284
[7]胡爱华卢芸杨郁池:电子商务中数据挖掘方法的应用[J].商场现代化,2007,4(上旬刊):103~104
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。