基于网络爬虫互联网涉税信息采集系统设计与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:zhihong0223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的快速发展,税收数据已经逐步形成大集中,纳税人图像、音视频等行为数据的采集,已经逐步向外部门、第三方数据延伸。税务行业“大数据”的时代已经来临,数据从原来应用系统产生的一种附属物,变成了有价值的资产。大数据时代,谁能掌握好数据、谁能利用好数据,谁就能提高洞察力、占领制高点。面对日益增长的海量数据资产,制定统一的数据管理战略和数据管理体系,理清数据管理思路,明确数据管理职责,拓展数据应用范围,提升数据应用质量,确保数据资产得到系统、高效、安全的管理,更好地服务领导决策、服务纳税人办税、服务基层税收征管、服务经济社会发展,已经成为税务部门迫切需要面对并加以研究的重要课题。为了有效应对上述变革,税务部门迫切需要加强统筹协调,通过建设全局型的税务大数据应用管理平台,全面规范涉税数据管理,真正把税务部门海量数据的“金山银库”潜能挖掘出来、效益发挥出来。而互联网作为一个很有价值的信息来源,它提供了多种类型和形式的信息,但在海量的数据信息中,如何抓取涉及到税务相关的信息是一个难题。当然,可以手动收集这些与税收相关的数据,并且可以根据预定格式对从因特网收集的各种信息进行分类和转换。在互联网规模较小的早期,人工收集这种方法确实更为可取。但是,当今的互联网规模日新月异,并且不断扩大,手动收集信息的方式可以说是已经难以适应对于大规模信息的收集。所以,对于互联网上的信息,我们有必要采用一定的技术手段能自动收集。本课题就是利用网络爬虫技术搭建平台,对涉税信息进行采集。在上述背景下,本课题以某市税务局互联网涉税信息需求为例,基于网络爬虫技术,致力于实现互联网涉税信息采集系统的设计和实现。本课题首先分析了在大数据时代的背景下,我国税源管理工作一方面难以适应大数据时代的背景。另一方面,税务机关在积极适应税收管理信息化过程中遇到了一些问题。其次介绍了爬虫系统的基本工作原理和相关理论知识,对现有几种主流网络爬虫的工作特点和系统结构进行了研究,提出了一种适用于某市税务系统的爬虫数据采集实现方案,提出了采取的关键技术路线,包括J2EE技术、URL去重、正则表达式等。在分析了系统的需求和系统架构后,对各个模块进行了设计,并详细阐述了各个模块的具体实现细节,最后通过在应用场景的功能测试,得出结论,实现了预期目标,满足了现实需求。
其他文献
在日本语的学习过程中,语法是让很多初学者颇感头疼的一个项目,特别是语法中的被动句的学习让初学者望而却步。本文从被动句的分类入手简要介绍其构成和基本的概念特征,希望
实施普职融合,职业学校为普高学生开设职业类选修课程,成为适应新高考、培养学生能力的重要途径。普职融合的职业类课程能更好地培养学生的语文素养,具有操作机会多、专业性
近年来,全球各地发生了多起公共卫生危机事件,给当地的人民健康和社会稳定造成了重大危害。21世纪以来,随着全球重大公共卫生事件发生频率越来越高,如何对重大公共卫生事件进
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>建筑确实存在"圈子",因为有技术屏蔽;但建筑又绝对不是专业圈的事情,因为其和每个人的生活息息相关。建筑对于社会公众的影响是直接的,从视觉和行为两方面。城市和建筑对
期刊
目的探讨敲减周期蛋白依赖型激酶样5(cyclin-dependent kinase-like 5,CDKL5)对人胶质母细胞瘤细胞生长和细胞周期的影响,为胶质母细胞瘤的治疗提供新思路。方法本研究使用人
受《中国总会计师》杂志的邀请,下面我结合所在行业就管理会计体系的构建谈一下自己的看法。一、在过去相当长的一段时间里,都是财务会计在企业占主导作用,特别是20世纪80年
通过PC工厂钢筋加工车间的设备总体工艺布置和设备选型,为智能化钢筋加工设备在PC构件厂的应用总结经验,针对数控钢筋弯箍机、数控钢筋调直切断机、数控钢筋桁架焊接生产线及
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield