论文部分内容阅读
随着社会信息化的快速发展,税收数据已经逐步形成大集中,纳税人图像、音视频等行为数据的采集,已经逐步向外部门、第三方数据延伸。税务行业“大数据”的时代已经来临,数据从原来应用系统产生的一种附属物,变成了有价值的资产。大数据时代,谁能掌握好数据、谁能利用好数据,谁就能提高洞察力、占领制高点。面对日益增长的海量数据资产,制定统一的数据管理战略和数据管理体系,理清数据管理思路,明确数据管理职责,拓展数据应用范围,提升数据应用质量,确保数据资产得到系统、高效、安全的管理,更好地服务领导决策、服务纳税人办税、服务基层税收征管、服务经济社会发展,已经成为税务部门迫切需要面对并加以研究的重要课题。为了有效应对上述变革,税务部门迫切需要加强统筹协调,通过建设全局型的税务大数据应用管理平台,全面规范涉税数据管理,真正把税务部门海量数据的“金山银库”潜能挖掘出来、效益发挥出来。而互联网作为一个很有价值的信息来源,它提供了多种类型和形式的信息,但在海量的数据信息中,如何抓取涉及到税务相关的信息是一个难题。当然,可以手动收集这些与税收相关的数据,并且可以根据预定格式对从因特网收集的各种信息进行分类和转换。在互联网规模较小的早期,人工收集这种方法确实更为可取。但是,当今的互联网规模日新月异,并且不断扩大,手动收集信息的方式可以说是已经难以适应对于大规模信息的收集。所以,对于互联网上的信息,我们有必要采用一定的技术手段能自动收集。本课题就是利用网络爬虫技术搭建平台,对涉税信息进行采集。在上述背景下,本课题以某市税务局互联网涉税信息需求为例,基于网络爬虫技术,致力于实现互联网涉税信息采集系统的设计和实现。本课题首先分析了在大数据时代的背景下,我国税源管理工作一方面难以适应大数据时代的背景。另一方面,税务机关在积极适应税收管理信息化过程中遇到了一些问题。其次介绍了爬虫系统的基本工作原理和相关理论知识,对现有几种主流网络爬虫的工作特点和系统结构进行了研究,提出了一种适用于某市税务系统的爬虫数据采集实现方案,提出了采取的关键技术路线,包括J2EE技术、URL去重、正则表达式等。在分析了系统的需求和系统架构后,对各个模块进行了设计,并详细阐述了各个模块的具体实现细节,最后通过在应用场景的功能测试,得出结论,实现了预期目标,满足了现实需求。