论文部分内容阅读
络绎不绝的游客究竟给桂林这个旅游胜地带来多少收益?看看2005年这个桂林旅游业取得历史性新成绩的一年:全市接待游客1205.08万人次,同比增长8.43%,其中入境旅游者100.09万人次,同比增长23.92%;国内游客1 104.99万人次,同比增长7.21%。但如果从旅游对桂林社会经济应该起到的支柱性地位来看,差距相当明显:2005年桂林市GDP总值为536.7亿元,其中旅游总收入57.95亿元。虽然同比增长了15.57%,但对GDP的贡献率只有11%左右。如果按增加值来比,旅游业占的比例就更小了,最多6%。一方面游人如织,一方面旅游收入却很低,问题究竟出在哪里?应用数据挖掘技术从旅游信息库中找找答案是一个可行的办法。数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘的功能包括发现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分析。其中,在旅游信息数据挖掘中运用较多的是关联规则、分类和预测、聚类分析。因此本文在理论部分重点研究了数据挖掘的过程以及分类数据挖掘的主要技术。本文基于数据挖掘的分类技术,利用SAS/EM数据挖掘工具,在桂林市旅游局2005年的旅游问卷调查所产生的数据库的基础上,从两个方面对该数据库进行了分类挖掘,即:影响游客消费的因素以及影响游客对桂林旅游综合评价的因素。在此过程中,完整地实现了分类数据挖掘的全过程,包括:确定数据源及挖掘目标,数据预处理,利用SAS/EM工具生成决策树,得到相应规则,并对结果进行了分析。其中,数据预处理采用x~2统计检验来选取与挖掘目标相关的属性,这一步比较重要,因为SAS/EM中决策树TREE节点支持的C4.5算法对属性的有效性要求比较高,通过这一步,使得最后产生的决策树有比较好的形态。最后根据研究的状况,进行了总结和展望。