论文部分内容阅读
随着图书发行业务的垄断格局逐步被打破,市场激烈的竞争逼使图书发行集团选择技术含量更高的数据挖掘手段,提高企业的分析能力,提高企业的市场竞争力。
本文以某大型图书集团的信息化项目中的历史销售数据为对象,利用决策树方法对图书资源进行分类,挖掘出畅销书的模式,所用到的挖掘算法是决策树C4.5算法。针对C4.5算法的过度配适问题,在数据预处理中,引进了“速度”和“加速度”的属性,从而使得决策树在生成过程中,简化了计算,在一定程度上克服了C4.5易偏向于取值较多的属性这一问题,最终得到了较为理想的决策树,其结点个数明显减少,而分类精度变得更高。
在系统实现上,实现了挖掘流程可视化和模型结果可视化,允许用户和模型做一些简单的交互,帮助用户理解模型。接下来,通过误差矩阵和增益图来对模型进行评估,以检验模型的合理性和发现不足之处,从而进行改进。