论文部分内容阅读
近些年来,随着数据库技术的快速发展、以及高级语言的不断出现进步,再加上各个公司企业和事业单位对于信息化的重视,各类管理信息系统越来越完善的同时,也带来了大量的信息数据。对于税务工作来说,也面临着同样的问题。以往的税务信息系统对于这些税务数据的处理基本围绕着统计、分析、查询等功能,可以说,税务数据中所蕴藏的大量有价值信息还没有被很好的利用。数据挖掘技术是一门新兴发展的学科,它能够帮助税务工作人员从海量的税务数据中发现出从来没有被重视过的利用价值,从而有效降低工作的运行成本,提供更为细致的相关服务,发现纳税过程中的关联特征,帮助税务人员采取更为行之有效的管理手段。这种新的思路和方法将是在以前的工作中没有出现过的。本文基于J2EE三层架构解诀方案,将业务层与数据层和用户层分离,中间层技术采用JSP、Java Servlet、JavaBean。系统网络架构为B/S浏览器服务器模式,方便个人纳税用户、税务工作人员和系统管理员使用系统功能。系统通过JDBC连接数据库系统Oracle。系统利用JAVA程序语言调用WEKA平台模块中的决策树算法来实现系统的核心功能纳税评估模块,并将最终分析评估结果以JSP页面方式显示在用户浏览器上。本文系统功能模块划分为纳税申请管理、基本信息管理、分析评估管理、权限分配管理和系统管理五个部分。(1)申报管理。包括个人基本信息录入、报表填写、纳税申报、提交并得到反馈信息、打印完税凭证等。(2)基本信息管理。包括纳税人、税务人员和管理员的个人账号管理,税务人员对于系统数据的查询统计管理功能。(3)纳税评估。这是本文的重点部分,利用数据挖掘技术实现对纳税人的数据信息分类,实现对纳税人纳税行为的监督、错漏发现,找出有疑点数据。(4)用户权限设置。包括系统角色管理、用户和用户组管理、权限分配等。(5)系统管理。管理系统服务器、路由器、应用程序、参数配置、队列管理以及数据交换平台的配置。其中重点模块为分析评估,通过综合比较多种数据分类算法,并分析税务数据和税务评估指标的特点,本文确定采用C4.5决策树算法。C4.5决策树算法是基于ID3算法改进而来,ID3算法使用信息增益作为属性选择度量,信息增益定义为原来的信息需求与新的信息需求之间的差。通过选择具有最高信息增益的属性作为结点N的分裂属性确保构造一棵简单的树。C4.5算法在此基础上加以改进,使用一种称为信息增益率的信息增益扩充,克服ID3算法的缺陷。本文对C4.5算法的改进之处是针对离散属性,考虑到子树中分枝数目与结点属性很多是相等的,并且这些分枝的信息均匀度即熵值不是很理想,过大或是过小,因而考虑将这些分枝合并,并重新计算合并后样本的信息熵值,选择出均匀度最佳测试属性。本文最后对系统功能和性能进行测试,功能测试对象包括链接、表单、数据库等,性能测试包括了分析评估模型的准确率和召回率、产生和使用的时间、对于大数据集算法的适应能力、模型分析评估结果的可理解性。测试结果表明系统模型能够为税务工作人员减轻工作量提供帮助,并能够帮助税务工作人员确定税务监督的重点对象,提高税务工作的水平。