论文部分内容阅读
近年来,数据挖掘技术受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。数据挖掘是采用人工智能的方法对数据库和数据仓库中的数据进行分析、获取知识的过程,能帮助企业和行政部门根据其底层数据库积累的大量数据找到潜在的规律和规则,有利于决策人员更好地提出决策和分析模式。目前,数据挖掘已应用于金融、零售业、电信业等领域,并产生了巨大的效益,但在税务系统的应用尚处于探索阶段。随着征管系统的广泛应用,税务部门已积累了大量的税收业务数据,但多用于简单的数据管理和日常查询,缺乏深层次分析和利用,造成了数据资源的浪费。因此,研究数据挖掘技术在税务系统的应用,具有重要的理论意义和实用价值。论文首先介绍了课题的研究背景、当前税务信息化水平、税务信息整合利用的现状,接着对数据仓库的基本概念、数据组织结构以及数据挖掘的定义、体系结构进行了详细描述,并深入讨论了常用的数据挖掘工具和数据挖掘过程,为论文的全面展开奠定了基础。然后对聚类分析的概念与算法进行了分析与研究,尤其是聚类分析中的K-means算法进行了详细研究。最后选择税收管理中纳税定额管理这一课题,提出了一种基于数据仓库和数据挖掘的定额管理系统的设计方案,以及对各种业务数据按税收业务的主题进行抽取、转换、加载等处理。并在此基础上,结合税务数据和定额管理的指标特点,采用了当今最流行的数据挖掘工具和方法,利用聚类分析的K-means算法进行数据挖掘研究。论文是将数据挖掘技术具体应用到税收系统中的一次宝贵探索。通过对征管系统采集的大量历史数据进行了实验分析与研究,得出了对定额管理有较高指导意义的定额系数分类信息,验证了定额管理系统具有很好的实际应用价值,实现了个体工商户税负核定的公平、公开与公正。