面向实证方法的互联网数据提取系统研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:koala01250708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在管理研究,特别是在实证研究过程中,研究目标相关数据的获取是一个相当重要的环节,它既为研究方向的确立提供基本的现实信息,供研究者进一步地对研究目标进行分析,同时又决定了研究所使用的方法和接下来的研究流程。因此,研究目标相关数据的获取过程在管理研究中起着重要作用。目标数据的获取一直是困扰研究人员的难题,在传统的数据获取过程中,数据的来源相当有限,并且获取的方式具有局限性,对数据进行处理,将原始数据提取为可用于分析的数据也需要耗费许多人力支出,使得人力成本较高。在当今的大数据时代背景下,互联网给当今社会带来了极大的便利,并产生了海量的数据,这些数据给各类机构带来价值的同时,也给管理研究人员提供了大量的研究对象,将互联网数据作为管理研究的数据源是理想的选择。在现阶段下,对互联网数据进行提取的方式主要有手工操作、使用网络数据抓取软件和编写爬虫软件三种,这些方式各有优缺点。如何高效、准确、灵活地获取互联网数据用作管理研究,是本文的主要研究目标。本文的主要研究内容是为了达成这一目标而提出一个互联网页面数据提取框架,以满足管理研究过程中对数据爬取的多样性需求。本文对数据爬取的整个流程进行了深入地分析,对业务逻辑进行了详细地探讨,并查阅了现有的相关资料,以此为基础得到了框架各个模块的设计方案,框架在整体设计上可以划分为五个具体的模块。框架使用了插件化管理的方式以满足多种形式不同的爬取任务灵活性的要求,并设计了相应的插件管理策略,在满足了灵活性需求的同时,也简化了任务的管理流程。通过对数据获取过程中所涉及的各个环节进行明确的逻辑划分,框架设计了相应的流程模块接口,并根据这些接口进一步地开发出了多种帮助研究人员进行各个爬取模块设计的开发库与工具。针对不同形式的网页数据,框架提供了多种数据爬取策略,研究人员可根据具体的数据爬取情景来选择相应的数据爬取策略。由于研究人员在数据爬取过程中具有不同层次的帮助需要,框架为研究人员提供了多层面的服务,并设计了一个Web平台用于简化研究人员与开发人员的需求交流。框架实现了一个执行引擎来完成具体的数据爬取任务,为了提高数据爬取的效率,执行引擎使用了分布式的架构,使用多台计算机并行执行爬取任务。
其他文献
通过改变封装阶段氩气压力及粉末粒径,制备不同类型致密化的预制坯,并进行不同温度下20 h等温发泡实验。运用阿基米德原理对发泡后坯料孔隙率进行测量,通过SEM对坯料内部微观
四川省是一个水资源紧缺的农业大省,要解决水资源紧缺的问题,特别是解决丘陵地区水资源短缺问题,改变人们传统的农业灌溉习惯尤为重要。穴灌是用移动运水工具或者移动软管逐
目的将已构建完成的携带增强绿色荧光蛋白基因的TSLC1真核表达载体转染到HepG2细胞中,观察其对HepG2肝癌细胞的作用。方法脂质体Lipofectamine2000介导重组载体转染到HepG2肝
依据地化、储层、钻探、地球物理等资料,对准噶尔盆地腹部超压顶面附近油气藏的成藏机制进行研究。结果表明:准噶尔盆地腹部为成岩后生烃型强超压盆地,超压顶面本身既是一个岩
针对中子伽马密度测井中利用单探测器信息进行含氢指数校正计算密度结果的不稳定问题,开展双源距含氢指数校正方法研究;采用蒙特卡罗方法模拟热中子、伽马分布与密度和含氢指
采用熔渗法制备Mo85-Cu复合材料,通过SEM、DSC和热导仪研究轧制温度和轧制变形量对其微观组织和物理性能的影响。实验结果表明:该轧制工艺适宜于钼铜合金的工业化生产,一定范
采用座滴法研究反应烧结(Reaction bonded)SiC/Co-Si体系在真空中的润湿性及界面反应,并研究Si含量和实验温度对润湿角的影响。结果表明,元素Si对反应烧结(RB)SiC/Co-Si体系的润
新疆油田准格尔盆地JM区块随着产出液综合含水率的不断上升,井筒问题日益突出,检泵比例逐年升高,严重影响老井稳产工作。本文针对此问题,分析区块井筒现状和存在主要问题,分