论文部分内容阅读
在管理研究,特别是在实证研究过程中,研究目标相关数据的获取是一个相当重要的环节,它既为研究方向的确立提供基本的现实信息,供研究者进一步地对研究目标进行分析,同时又决定了研究所使用的方法和接下来的研究流程。因此,研究目标相关数据的获取过程在管理研究中起着重要作用。目标数据的获取一直是困扰研究人员的难题,在传统的数据获取过程中,数据的来源相当有限,并且获取的方式具有局限性,对数据进行处理,将原始数据提取为可用于分析的数据也需要耗费许多人力支出,使得人力成本较高。在当今的大数据时代背景下,互联网给当今社会带来了极大的便利,并产生了海量的数据,这些数据给各类机构带来价值的同时,也给管理研究人员提供了大量的研究对象,将互联网数据作为管理研究的数据源是理想的选择。在现阶段下,对互联网数据进行提取的方式主要有手工操作、使用网络数据抓取软件和编写爬虫软件三种,这些方式各有优缺点。如何高效、准确、灵活地获取互联网数据用作管理研究,是本文的主要研究目标。本文的主要研究内容是为了达成这一目标而提出一个互联网页面数据提取框架,以满足管理研究过程中对数据爬取的多样性需求。本文对数据爬取的整个流程进行了深入地分析,对业务逻辑进行了详细地探讨,并查阅了现有的相关资料,以此为基础得到了框架各个模块的设计方案,框架在整体设计上可以划分为五个具体的模块。框架使用了插件化管理的方式以满足多种形式不同的爬取任务灵活性的要求,并设计了相应的插件管理策略,在满足了灵活性需求的同时,也简化了任务的管理流程。通过对数据获取过程中所涉及的各个环节进行明确的逻辑划分,框架设计了相应的流程模块接口,并根据这些接口进一步地开发出了多种帮助研究人员进行各个爬取模块设计的开发库与工具。针对不同形式的网页数据,框架提供了多种数据爬取策略,研究人员可根据具体的数据爬取情景来选择相应的数据爬取策略。由于研究人员在数据爬取过程中具有不同层次的帮助需要,框架为研究人员提供了多层面的服务,并设计了一个Web平台用于简化研究人员与开发人员的需求交流。框架实现了一个执行引擎来完成具体的数据爬取任务,为了提高数据爬取的效率,执行引擎使用了分布式的架构,使用多台计算机并行执行爬取任务。