论文部分内容阅读
税务部门针对提高税收征管水平,加强数据资源开发利用的要求,尝试进行数据挖掘技术的研究和应用,探索基于较大规模税收数据而进行的纳税人行为分析和预测。本文研究并实现了关联规则发现和决策树分类等算法,并针对税收数据特点,优化了ID3等算法,分析纳税人欠税和纳税人流失的可能性。首先,本文就数据挖掘中关联规则的概念和作用进行了探讨,研究并实现了Apriori算法和FP_Tree算法,通过真实的税收数据,挖掘出布尔型关联规则、数值型关联规则、多维关联规则等知识,通过实验和在税务部门的应用验证了算法程序的正确性和有效性。其次,本文介绍了决策树分类方法的概念,说明了经典ID3算法的原理和过程实现。针对税收数据的特点,实现了基于支持数和置信率的SCP后剪枝的方法和基于FP_Tree的ID3改进算法,分别解决了决策树构造过度和构造效率低下的问题。通过实验证明了SCP的后剪枝方法和基于FP_Tree的ID3改进算法的有效性和优越性。利用改进算法构造的纳税人流失分类模型和纳税人欠税分类模型,应用到税收管理,提高了税收管理工作的质量和效率,取得了较好的社会效益和经济效益。