论文部分内容阅读
[摘 要]大数据时代的来临,信息数据越来越多,纳税人数量在快速地增加,税源呈现多元化、复杂化的特征,税源分布的领域越来越广,税源的结构越来越复杂,税源的流动性和隐蔽性越来越强。税务人员需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘其隐藏信息数据中的潜能,从海量数据中发现有价值的信息,识别纳税特征,提供差异化的纳税服务,实现信息管税。
[关键词]税务分析;数据挖掘;大数据;数据利用
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2016)17-0192-01
1 引言:
大数据时代的来临,信息数据越来越多,纳税人数量在快速地增加,税源呈现多元化、复杂化的特征,税源分布的领域越来越广,税源的结构越来越复杂,税源的流动性和隐蔽性越来越强。税务人员需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘其隐藏信息数据中的潜能,从海量数据中发现有价值的信息,识别纳税特征,提供差异化的纳税服务,实现信息管税。
2 税务分析现状
税务信息化水平代表着一个国家的税收管理水平,甚至影响其财政、国民经济发展水平。作为国家财政收入主渠道的税务行业,是我国政府机关中最早实现信息化的系统之一。近年来,各地税务机关在加强数据管理、深化数据分析应用、探索信息化支持决策与管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地进行税收数据分析应用,提高税收管理的整体水平,一直是税务管理部门非常重视并急需解决的课题。
3 数据挖掘技术和方法
数据挖掘技术大致分为两类技术,即描述性数据挖掘和预测性数据挖掘两类。描述性数据挖掘以概要方式描述数据,提供数据的一般性质,即导出概括数据中潜在联系的模式。预测性数据挖掘建立一个或一组模型,产生关于数据的预测,即根据其他属性的值,预测特定属性的值。数据挖掘方法则包括关联规则、决策树、聚类分析和离群点检测等分析方法。
4 税务数据挖掘步骤
以税务数据挖掘应用角度,挖掘方法可分为这么几步。第一步是概念描述。利用概念描述的方法对行业税负进行分析,为联机数据挖掘提供了可操作的平台。第二步是关联分析。关联性知识挖掘通过测算关联事务的支持度与自信度发现事务发生频繁项集,找出纳税人办理涉税事项之间的序列关联与时间关联;同时,将关联知识用于税源管理中,可以分析企业零负申报与相关因素的关联度,解释困扰税务机关已久的难题。第三步是偏差检测。数据库中的数据常有一些异常记录,这些异常数据的成因可能是来源于不同的类,或者自然变异、收集误差等。偏差检测更多关注的是一个数据对象来源于不同的类,如税收欺骗检测就是通过建立税收数据模型,挖掘出非正常纳税的纳税人信息。
5 税务数据挖掘应用
5.1 数据质量校核
数据质量的高低既是各方关注的热点、又是信息化应用工作的难点,可称之为财税领域研究的“生命线”。数据质量是指数据的优劣程度,或指数据的准确度和可信度。无论税收收入会统核算,还是稽查选案、收入预测、纳税评估等都需依赖数据质量。数据质量评估至少应该包含两方面的基本评估指标:数据对用户必须是可信的,其中包括精确性、完整性、一致性、有效性、唯一性等指标。数据对用户必须是可用的,其中包括时间性、稳定性等指标。可使用数据质量的六元组评估模型对应用系统的数据质量进行评估,构造数据质量评估模型可经过四个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。
5.2 异常行为发现
在税务纳税评估和稽查选案管理中,分类规则发现是最常用的数据开采操作,其目的是利用历史数据记录,从中自动推导生成能总结出对给定历史数据的推广描述,可根据纳税人的登记信息、纳税信息、财务指标、以往的违法违章记录等信息,创建预测纳税人的异常纳税的关联规则集,并以此模型作为稽查选案的依据,并能预测未来数据的行为。关联规则数据挖掘可以有效地协助税务机关进行决策分析。可以根据纳税人已有纳税信息和违章情况,进行关联分析,找出涉税经济指标与可能违章手段之間的联系,发现偷、漏税疑点,为税收分析和决策提供依据,提高税务稽查和日常税收管理的效率。
5.3 纳税行为分析
利用决策树分类方法进行挖掘分析,通过对纳税人纳税申报信息、纳税人基本信息、办理涉税事项、发票使用等一系列数据实施监控,建立税源检测数据模型,可以帮助税务机关对纳税人的纳税行为进行合理的评价,帮助解决零税负申报、纳税终止行为预测、低税负申报、虚假申报、发票违章等难题。分类在数据挖掘中是一项非常重要的任务,分类的应用非常广泛。分类的目的是让信息系统学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一类别。分类也可用于预测。决策树分类方法是特别有效一种分类方法,对税务行业宏观和微观的决策都能起到很好的辅助作用。
5.4 税收收入预测
对税收收入进行预测是一件很困难的事情, 主要原因是影响税收收入的因素太多, 但可以通过预测技术给出一个近似值。任何单一的预测模型都只利用了部分有用信息,为保证预测的准确性与可靠性,有必要尽可能综合利用各种预测模型所提供的信息,以达到改善预测效果的目的。组合预测包括等权平均组合预测方法和预测精度组合预测方法。等权平均组合预测方法是组合预测方法中最简单的一种,虽然方法简单,但在对各预测模型的预测精度完全未知的情况下所采用的一种较为稳妥的方法。而预测精度组合预测方法较之等权平均组合预测方法能够更为科学地在各预测模型间分配权重,在各预测模型的预测精度能够确定的情况下,通常使用该方法解决各模型间权重分配问题。
5.5 税源质量评价
税源质量是对税源这一经济量优劣程度的度量,既包含着对税源中潜在税收含量的一种度量,又能反映税源规模的变化情况。税源质量越好,表明潜在的税收含量越高,意味着税收产出可能就越多;反之,税源质量越差,税收产出就可能越小。另一方面,税源质量的变化趋势,增长还是萎缩,预示着税收收入的变化趋势,可以通过税源质量的判断来预测税收的变化趋势。税源质量能够反映税源总体中影响税收数量变化的内在因素成份。这种内在因素可能促成税收的增长,也可能造成税收收入减少。税收经济关系中存在很多影响税收数量增减变化的税源内在因素。
6 总结
本文对税务系统应用数据挖掘方法开展数据分析进行了初步思考和研究,数据挖掘技术在税务系统有很大应用前景,例如如何建立地区经济发展、企业发展状况与该地区税收收入的相关关系,如何根据税源评价来预估地区或企业税收收入等问题,都需利用数据挖掘方法进行深入研究,并通过对税收数据的深度利用拓展税源管理思路和方法。
[关键词]税务分析;数据挖掘;大数据;数据利用
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2016)17-0192-01
1 引言:
大数据时代的来临,信息数据越来越多,纳税人数量在快速地增加,税源呈现多元化、复杂化的特征,税源分布的领域越来越广,税源的结构越来越复杂,税源的流动性和隐蔽性越来越强。税务人员需要以更新、更便捷、更有效的方法,对大量的征管数据进行分析、提取、挖掘其隐藏信息数据中的潜能,从海量数据中发现有价值的信息,识别纳税特征,提供差异化的纳税服务,实现信息管税。
2 税务分析现状
税务信息化水平代表着一个国家的税收管理水平,甚至影响其财政、国民经济发展水平。作为国家财政收入主渠道的税务行业,是我国政府机关中最早实现信息化的系统之一。近年来,各地税务机关在加强数据管理、深化数据分析应用、探索信息化支持决策与管理模式等方面,做了很多有益的探索,取得了一定成效,但如何有效地进行税收数据分析应用,提高税收管理的整体水平,一直是税务管理部门非常重视并急需解决的课题。
3 数据挖掘技术和方法
数据挖掘技术大致分为两类技术,即描述性数据挖掘和预测性数据挖掘两类。描述性数据挖掘以概要方式描述数据,提供数据的一般性质,即导出概括数据中潜在联系的模式。预测性数据挖掘建立一个或一组模型,产生关于数据的预测,即根据其他属性的值,预测特定属性的值。数据挖掘方法则包括关联规则、决策树、聚类分析和离群点检测等分析方法。
4 税务数据挖掘步骤
以税务数据挖掘应用角度,挖掘方法可分为这么几步。第一步是概念描述。利用概念描述的方法对行业税负进行分析,为联机数据挖掘提供了可操作的平台。第二步是关联分析。关联性知识挖掘通过测算关联事务的支持度与自信度发现事务发生频繁项集,找出纳税人办理涉税事项之间的序列关联与时间关联;同时,将关联知识用于税源管理中,可以分析企业零负申报与相关因素的关联度,解释困扰税务机关已久的难题。第三步是偏差检测。数据库中的数据常有一些异常记录,这些异常数据的成因可能是来源于不同的类,或者自然变异、收集误差等。偏差检测更多关注的是一个数据对象来源于不同的类,如税收欺骗检测就是通过建立税收数据模型,挖掘出非正常纳税的纳税人信息。
5 税务数据挖掘应用
5.1 数据质量校核
数据质量的高低既是各方关注的热点、又是信息化应用工作的难点,可称之为财税领域研究的“生命线”。数据质量是指数据的优劣程度,或指数据的准确度和可信度。无论税收收入会统核算,还是稽查选案、收入预测、纳税评估等都需依赖数据质量。数据质量评估至少应该包含两方面的基本评估指标:数据对用户必须是可信的,其中包括精确性、完整性、一致性、有效性、唯一性等指标。数据对用户必须是可用的,其中包括时间性、稳定性等指标。可使用数据质量的六元组评估模型对应用系统的数据质量进行评估,构造数据质量评估模型可经过四个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。
5.2 异常行为发现
在税务纳税评估和稽查选案管理中,分类规则发现是最常用的数据开采操作,其目的是利用历史数据记录,从中自动推导生成能总结出对给定历史数据的推广描述,可根据纳税人的登记信息、纳税信息、财务指标、以往的违法违章记录等信息,创建预测纳税人的异常纳税的关联规则集,并以此模型作为稽查选案的依据,并能预测未来数据的行为。关联规则数据挖掘可以有效地协助税务机关进行决策分析。可以根据纳税人已有纳税信息和违章情况,进行关联分析,找出涉税经济指标与可能违章手段之間的联系,发现偷、漏税疑点,为税收分析和决策提供依据,提高税务稽查和日常税收管理的效率。
5.3 纳税行为分析
利用决策树分类方法进行挖掘分析,通过对纳税人纳税申报信息、纳税人基本信息、办理涉税事项、发票使用等一系列数据实施监控,建立税源检测数据模型,可以帮助税务机关对纳税人的纳税行为进行合理的评价,帮助解决零税负申报、纳税终止行为预测、低税负申报、虚假申报、发票违章等难题。分类在数据挖掘中是一项非常重要的任务,分类的应用非常广泛。分类的目的是让信息系统学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一类别。分类也可用于预测。决策树分类方法是特别有效一种分类方法,对税务行业宏观和微观的决策都能起到很好的辅助作用。
5.4 税收收入预测
对税收收入进行预测是一件很困难的事情, 主要原因是影响税收收入的因素太多, 但可以通过预测技术给出一个近似值。任何单一的预测模型都只利用了部分有用信息,为保证预测的准确性与可靠性,有必要尽可能综合利用各种预测模型所提供的信息,以达到改善预测效果的目的。组合预测包括等权平均组合预测方法和预测精度组合预测方法。等权平均组合预测方法是组合预测方法中最简单的一种,虽然方法简单,但在对各预测模型的预测精度完全未知的情况下所采用的一种较为稳妥的方法。而预测精度组合预测方法较之等权平均组合预测方法能够更为科学地在各预测模型间分配权重,在各预测模型的预测精度能够确定的情况下,通常使用该方法解决各模型间权重分配问题。
5.5 税源质量评价
税源质量是对税源这一经济量优劣程度的度量,既包含着对税源中潜在税收含量的一种度量,又能反映税源规模的变化情况。税源质量越好,表明潜在的税收含量越高,意味着税收产出可能就越多;反之,税源质量越差,税收产出就可能越小。另一方面,税源质量的变化趋势,增长还是萎缩,预示着税收收入的变化趋势,可以通过税源质量的判断来预测税收的变化趋势。税源质量能够反映税源总体中影响税收数量变化的内在因素成份。这种内在因素可能促成税收的增长,也可能造成税收收入减少。税收经济关系中存在很多影响税收数量增减变化的税源内在因素。
6 总结
本文对税务系统应用数据挖掘方法开展数据分析进行了初步思考和研究,数据挖掘技术在税务系统有很大应用前景,例如如何建立地区经济发展、企业发展状况与该地区税收收入的相关关系,如何根据税源评价来预估地区或企业税收收入等问题,都需利用数据挖掘方法进行深入研究,并通过对税收数据的深度利用拓展税源管理思路和方法。