论文部分内容阅读
数据挖掘(Data Mining)是涉及数据库、人工智能、统计学等学科的一门活跃的研究领域,是从数据库中识别出有效的、新颖的、潜在有用的和最终可理解的知识,并对商务决策做出重要决定的处理过程。大规模数据集的分类是数据挖掘中的一个重要课题,而分类预测技术在税收领域的应用有着很好的前景。 本文对面向属性归约方法和判定树分类技术进行了深入地讨论。众所周知,不同的行业具有不同的特征。使用面向属性的归约的方法不仅可以找到同一行业特征,而且可以找出不同行业的对比特征。本文利用该技术可将税收征管质量的好坏加以分类,得到判定税务机关征管质量好坏的规则。这就是国家税务总局为什么要实施分类管理,从而提高征管质量的原因。 判定树算法具有快速高效的优点,比如ID3、C4.5等算法。但当样本数据增加到某种程度时,其效率变的低下,庆幸的是一种快速高效的可伸缩的SLIQ算法解决了该问题。本文对已有的一般纳税人信息使用该技术生成一棵判定树,来预测一般纳税人纳税的诚信度:是诚信纳税还是有偷税嫌疑?这样可以缩小我们检查的范围,提高工作效率。 我们用java语言实现了SLIQ算法,并用jsp技术将该成果发布在我们的内部网站上,使信息共享。