一种Web商情采集系统需求及结构模型

来源 :商场现代化 | 被引量 : 0次 | 上传用户:muyi_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 及时、准确、全面地掌握商情是在现代商业竞争中把握主动权的重要前提,互联网的快速发展使其成为获得商情的重要来源。传统搜索引擎不能满足现代商情采集的需求,开发专业商情采集系统的需求日益迫切。根据“经销商”的经营特点,详细讨论Web商情采集系统的需求;对网上商情来源网站进行了分类,讨论了各类网站的信息特点;提出一种Web商情采集系统结构;讨论了系统的关键技术、知识产权问题和系统扩展方向。
  [关键词] Web 商情 经销商 主题爬虫
  
  现代商业竞争日益激烈,及时、准确、全面地掌握商业情报(商情)是在竞争中把握主动权的重要前提。随着互联网的快速发展,越来越多的公司企业、政府机关和个人把信息发布到网上以展示自己、联系客户、实施供销等,网络已成为获得商业情报的重要途径。使用传统的搜索引擎在输入关键字后,要靠人工去点击一个个网页,查阅信息,靠复制粘贴等操作来整理保存结果,效率很低。现代搜索引擎越来越向专业和实用方向发展,目前最典型和成功应用的专业搜索引擎是旅游搜索,网上商业、经济信息搜索正在引起重视。Web商情采集系统是能实时搜集网上商情、进行跟踪监测、将信息进行分类整理等功能的系统。目前已有一些类似的通用系统被开发出来,如:创鸿商业信息采集系统商情版、通科供求情报通等。Web商情采集系统是应需求产生的,不同公司企业和个人的目标不同,需求也不同,加上网络的广泛性和虚拟性,通用系统很难满足个性需求。本文以经销商为例,详细分析了用户的需求,分析了网络各类资源的特性,提出了一种系统设计模型,并讨论了其关键技术和发展问题。
  
  一、Web商情采集系统需求
  
  现代社会是商品社会,几乎每个企业、政府部门、学校、个人都要了解商情,但由于身份和目的不同,需求的具体内容、细节和程度有所不同。本文所谓的“经销商”泛指各级代理商、分销商、批发商、零售商等,“商”可以是企业或个人。
  商业情报是一种情报,采集商情要遵循情报采集规律。先规划和定向,确定需求,再根据需求去采集才能做到有的放矢,才会采集到有意义的信息,支持自身的决策。经销商经销的产品一般都在一个或几个行业或专业领域内,其兴趣主要在其经营专业范围内的信息。作为商家,他们主要关心行业中的主要生产企业信息、行业内其他经销商信息、专业产品的供求信息、价格水平、折扣信息等。因此,Web商情采集系统至少应具有如下功能:
  1.搜集和跟踪行业中主要企业的发展状况情报。包括企业的产品生产和销售信息、新产品信息、广告投入信息、财务状况信息、管理状况信息等。
  2.搜集和跟踪行业内其他经销商的商业信息。包括他们的地域、规模、客户群、经销状况、财务和管理状况等。
  3.搜集和跟踪专业产品供求信息、价格信息等。
  4.自动功能和手工操作相结合。系统应根据已知种子网站自动搜索其他相关网站,并根据网站的更新频率自动调整采集周期,对采集结果自动分类整理等。同时由于系统信息的复杂性及网络的虚拟性,系统要根据一定策略计算各网站的可信度,接受人工设置的单项检索,允许手工调整、确认各网站的可信度等。
  5.软件系统应具备的其他管理功能,如用户管理、备份、清理、日志功能等。
  
  二、Web商情来源网站的分类及特点
  
  互联网上的网站多种多样,其信息规模是海量的,是虚拟的。覆盖所有网站的采集是不可能的,对专业需求也是不必要的,同时,对采集的信息需要以一定策略计算其可信度。对商情采集系统来说,要采集的对象主要是几类网站,各类网站的重要性、可信度也不同,下面简要叙述。
  1.生产企业的网站是采集企业信息的主要源头。企业一般会把本企业重要新闻、行业重要新闻、本企业产品、管理机构、主要代理商情况发布到自己的网站,这些是了解一个企业的重要信息。另外,企业很少会在自己网站发布虚假消息,这类网站可信度很高。
  2.规模较大的经销商会建立自己的网站以发布产品供应信息和联系客户。其上的信息除包含经销商自己的营销信息,还会有与之相关的其他经销商的信息及行业信息,这类网站可信度也很高。
  3.各类电子商务网站当然是商业情报的主要来源。从中可以采集到各类商品的规格、零售价格、批发价格、折扣价格、销售情况等。电子商务网站种类很多,信息更新频繁,其可信度主要是根据网站的管理体制来确定,具体的信息可靠性由发布人的信誉来确定。然而发布人的信誉信息很难获得,网上的可信度评价只能作为参考。
  4.各类商情网站是了解供需情况的重要网站,个人和企业均可把自己的供需信息在其上发布。但是,在这类网站发布商情具有随意性,其中信息的可信度没有保证,也主要由网站的机制和发布人的信誉来估计。
  5.各级政府网站的行业新闻、财务报告是较可靠的商情来源,其信息更新不频繁,更新周期有规律,但信息相对较少。
  6.一些市场研究机构和情报公司提供收费的商情报告,如中国渔业贸易有限公司提供的《中国渔业贸易商情快递》。如果向他们订阅,可以定期收到报告。这些报告可信度较高,综合性较强,可以作为系统信息保存。
  7.除了前述的五类网站,其他网站上也会可能会有重要的信息要关注,如:一些企业、学校、政府网站的招标公告等。对这类信息主要应根据用户的设置有针对性的采集信息,大海捞针可能没效率,搜索结果用户也不一定感兴趣。
  
  三、Web商情采集系统结构模型
  
  根据前述的需求和信息来源分析,我们提出一种Web商情采集系统结构,如图所示。
  Web商情采集系统结构图
  整个系统由数据存储、数据管理、业务逻辑、用户界面四层构成。在数据存储层,系统中要存放URL种子,最初的URL种子是由用户指定的一些网址,系统运行中会不断选择有一定可信度的网站添加到其中,逐步得到较稳定的URL种子集;各类目录是支持系统信息表示的目录,同时存放相关的属性信息,如企业目录、经销商目录、地域目录、可信度目录等,这些目录也是随系统运行动态维护的;商情信息是系统的主体数据,存放分类的商情。
  数据管理模块是管理数据的类,它的功能是根据上层的数据查询修改命令,完成对数据的操作。
  主要业务逻辑层包括了系统的主要功能模块。每次开始采集,系统根据现存URL种子集生成一个URL队列;页面信息采集模块根据URL队列信息进行采集,提取页面主要信息存放到临时文件中,同时提取页面链接加入URL种子队列;临时文件中数据经判断、分类、整理,将信息存入商情信息文件中;直到URL种子集中的网址搜索完成,这个过程是爬行搜索网页、提取、整理信息的过程。
  用户界面是系统的用户接口,接收用户的设置、要求,将结果反馈给用户。
  
  四、系统讨论及结束语
  
  1.Web信息采集系统是一种主题爬虫。其关键有二:一是采用合适的搜索算法,实现一定的查全率,并防止它跟随链接无目的漫游及产生循环采集;二是运用人工智能技术进行主题识别和预测及提取主题信息。
  2.新的知识产权法规定网络出版物同其他任何出版物一样都受到知识产权的保护,在网上采集信息有侵犯知识产权的可能。由于系统能搜集到的信息都是网上公开的信息,并且,系统对网页上的文本,是提取出其中的信息保存下来,一般不会保存原文,所以不会构成侵权。
  3.本系统只是设置了采集、整理功能,随着信息的积累,系统可以扩展数据挖掘、知识发现等功能,并可与企业自身的ERP系统有效整合,使其成为集成的决策支持系统。
  Web采集系统是应互联网的发展和用户的需求而产生的,目前已有的系统均不成熟,运行效率和结果都不能满足用户要求,所以对其系统需求、结构、关键技术的深入研究有较深远的意义。
  
  参考文献:
  [1]杨丽萍马继涛张虹霞:网络搜索引擎分类与发展[J].情报学报, 2006,25(10):421~424
  [2]侯福丽:网上经济信息资源检索方略[J].商场现代化,2007,4(下旬刊):379~380
  [3]创鸿商业信息采集系统商情版.htpp://www.hztl.com.cn/suite/webcollecting.htm,浏览日期:2007,5
  [4]通科供求情報通.http://www.wanglue.net/,浏览日期:2007,5
  [5]《中国渔业贸易商情快递》介绍.http://www.sohu.net/supply/coms122/supply3668965.html, 浏览日期:2007,5
  [6]钟常青杨道玲:Web 资源保存中的法律问题探讨.情报理论与实践,2006,29(3):281~284
  [7]胡爱华卢芸杨郁池:电子商务中数据挖掘方法的应用[J].商场现代化,2007,4(上旬刊):103~104
  
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
[摘 要] 电子商务安全问题的核心和关键是电子交易的安全性,本文就目前电子交易中经常使用的安全策略——SSL协议的功能、具体应用和存在的问题进行了论述和分析。  [关键词] 电子商务SSL浏览器客户端服务器数字证书CA    一、 引言    随着计算机网络技术的飞速发展,电子商务开始蓬勃发展起来,通过Internet进行的网上购物、在线交易、网上银行等业务虽然为人们的工作和生活提供了极大的便利。
期刊
[摘要] 超市与消费者基于自助寄存柜发生的关系不同于一般民事无偿借用关系,超市对寄存物损失是否有过错,不应当限于其故意与重大过失。消费者几乎不可能举证证明寄存物的损失,导致此类消费者群体性败诉。令超市对寄存物损失承担举证责任,是公平的、可行的。  [关键词] 无偿借用关系举证责任分配利益平衡  生活与司法实践表明,消费者因寄存物丢失向经营者索赔的,常常因消费者不能证明失物为何物而失败。面对消费者群
期刊
[摘要] 2008年北京奥运会渐行渐近,志愿者招募工作已于2006年8月拉开序幕。北京市委书记刘淇说“志愿者的微笑是北京最好的名片”。奥运志愿者如何成为北京“最好的名片”,向来自世界各地的朋友展示中国改革开放之后,朝气蓬勃、日新月异的新形象和新面貌,很大程度上取决于他们的跨文化交流能力。2008奥运志愿者代表的是北京是中国,面对的是众多来自不同国家不同民族有着不同文化习俗的群体或个体,肩负着宣传北
期刊
[摘要] Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,利用Web挖掘可以提高电子商务系统对消费者的服务能力和竞争优势。文章从四个方面对Web挖掘进行了论述。  [关键词] 数据挖掘Web挖掘电子商务  随着互联网的高速发展和企业、个人上网的普及,电子商务成为未来商务交易的主要运营方式,电子商务是运用互联网技术进行的经济贸易活动,是一种基于因特网、以交易双方为
期刊
[摘要] 本文回顾了IPO抑价的主要理论,并对我国中小企业板IPO抑价的原因进行了分析。通过分析发现:我国中小企业板IPO抑价现象可用投机——泡沫假说解释;更为严格的信息披露制度对中小企业板的发展能起到一定的积极作用。  [关键词] 中小企业板IPO抑价    一、引言    股票首次公开发行(initial public offer, IPO),也称新股发行,通常指股份公司股票由私人持有(Pri
期刊
[摘要] 本文通过对FAB法则推销技巧涵义的阐释,进一步阐明营销专业学生在求职自荐过程中可运用此法成功推销自己,找到一份理想的工作。  [关键词] FAB法则自我推销营销专业学生求职自荐  2005年10月南京市人才市场的一次重点人才招聘会,吸引了涉及IT、制造、化工等十余个行业近40家规模较大的知名企业前来招聘营销人才。流利的语言表达能力,吃苦耐劳的精神仍然是招聘单位对求职者的基本要求。但与以往
期刊
[摘要] 随着信息化的深入, IT开始融入企业战略,只有与业务相结合,IT才能成为企业创新的支柱。因此CIO在企业中的地位越来越重,CIO的角色也将变化,同时也将面临更多的考验, CIO要明确所担负的职责,注重对自身素养和技能的培养,才能成为合格的、称职的CIO。  [关键词] CIO信息战略业务模式创新管理  首席信息官(Chief Information Officer,简称CIO )是企业信
期刊
[摘要] 农业旅游是振兴农村经济,促进新农村建设以及拓宽旅游产品的有效途径。本文在分析三峡腹地山区发展农业旅游的优劣势的基础上,提出发展本地农业旅游的对策建议。  [关键词] 三峡腹地农业生态旅游SWOT分析对策建议  重庆三峡库区腹地的城口、巫山、巫溪、奉节、云阳、开县地处大巴山区、三峡库区山区,国土面积21966km2,拥有516.37万人口,地形以中山、低山为主的,地理环境十分恶劣。该地既是
期刊
[摘要] 随着计算机技术的不断发展,计算机的安全问题日益被关注,尤其是网络技术的飞速发展,使得计算机攻击与破坏事件层出不穷,安全问题已经引起许多国家的重视。身份认证技术是信息安全理论与技术的一个重要方面,本文主要阐述了如何用.net工具开发windows下的身份认证系统。  [关键词] gina winlogon    一、身份认证技术分析  身份認证是指用户必须提供他是谁的证明。认证的目的就是弄
期刊
[摘要] 欧盟REACH制度中的化学物质注册制度涉及产品范围广、程序复杂和费用高,对中国化工产品,以及含有化学物质的物品生产、出口乃至管理都造成了巨大的冲击。我国政府、行业协会与企业乃至科研机构通力合作、积极应对,才能确保化工产品继续顺利输欧和化工产业及下游产业的健康发展。  [关键词] 欧盟 REACH 化学品 注册    2007年6月1日,欧洲议会和理事会第1907/2006条例正式生效。根
期刊