论文部分内容阅读
数据挖掘作为商业智能应用的基础技术之一,以其神奇的“预测”功能。似乎已经渐渐成为商业智能的代名词。
也许是得益于“啤酒与尿布”这个简单却“神奇”的故事,数据挖掘,一个原本在国内学术界亦颇为冷门的人工智能研究分支,数年间竟在中国IT应用领域深入人心,乃至于一提到商业智能,许多IT经理们皆会心一笑:哦,你在说数据挖掘吧。数据挖掘作为商业智能应用的基础技术之一,以其神奇的“预测”功能,在人们的脑海中似乎已经成为商业智能的代名词。
数据挖掘作为一门跨学科的知识“挖掘”技术,其研究轨迹能够追溯到60年代数据库系统的流行,。而商业智能的广泛应用,可以参考90年代初Gartner定义BI的时间点:“商业智能是将数据转换成知识并将知识应用到商业行为上的一个过程”,它由数据管理功能、数据分析功能、知识发现功能、企业优化功能这四部分构成。得益于数据库系统、ERP等企业级软件的成功应用,海量商业数据的存在以及人们对数据所代表信息的需求,最终促成了数据挖掘从技术到应用的飞跃。IDC预测,全球的商业智能市场将以27%的年平均增长率持续增长。
尽管众多的IT经理们喜欢以神奇的“预测”来描述商业智能的特征,而实事上,如果在“百度”上做关键字检索,会发现国内外厂商们在推广时,却更愿意强调BI产品的在线联机处理(OLAP)功能,甚至做“报表软件”这个关键词检索时竟然能够找到一长串BI厂商的名单。相比于OLAP,数据挖掘这种“预测”技术的应用冷遇与其在众多故事中神奇的光环极其不符。
其实,数据挖掘技术可以看作是在线联机处理(OLAP)技术的高级阶段,需要应用更加高级的数据理解技术,相比与数据仓库的汇总型分析处理要走得更远更深。纵观国内的数据处理现状,数据挖掘应用所遭遇的困境并不难理解。首先数据挖掘技术对输入数据质量和样本数量有着非常高的要求,有着从数据清理、集成、选择到变换的复杂预处理过程。如果数据预处理做得不好,往往会对预测精度有很大影响。而国内很多企业在原始数据的采集上往往有所缺漏,很难从中筛选出符合要求的数据集,那么预测自然就难以进行下去了,因此第一步还是先做好数据仓库为要。其次,由于预测方法使用了跨学科模型,对使用者知识体系掌握要求较高,很多预测技术的成功应用往往依托于使用者对挖掘模型的理解和建模能力,这就是我们通常所说的“DM(DIRECT MAIL,快讯商品广告)用得好不好就要看模型建得好不好”,而这个应用上的难度正阻碍了数据挖掘技术的普及。再次,从ROI的角度看,一项商用技术的普及必须是以能为企业带来可评估的业务价值为前提的。相比于OLAP立竿见影的企业绩效管理能力,预测技术在很多业务领域的应用是否可以依靠尚是未知之数。例如在原材料价格周期性较强的行业,如何應用数据挖掘技术预测未来价格走势达到价格管控的目的,其效益如何评估?
前述的种种原因导致了数据挖掘技术在国内发展较缓慢的现状,但反观国外金融、电信与零售行业这三大数据挖掘应用的前沿战地,可以看到在具备了较好的数据和资源基础后,“预测”技术亦能够带来的不可替代的商业价值。以金融行业为例,在贷款偿还、客户信用分析、目标客户群管理、金融犯罪侦破等领域,商业智能都已经形成了标准化、进入业务流程的应用,无论是基础数据、分析模型、应用方法都已经非常成熟。而我国的商业银行由于本身数据底子较好,也具备了一定的知识体系,可以看到很多数据挖掘如信用卡客户群管理等的应用正在逐渐普及。而很多BI厂商也正通过创新应用,来发现数据挖掘的更多价值,如提供面向互联网的智能检索服务等,都将是数据挖掘发展的新契机。
数据挖掘作为数据分析技术的更高级应用,虽然在普及上有更高的要求,但是基础IT技术的完善及业界的应用创新,其业务价值会不断发掘,这项“预测”技术的春天必将伴随着新的商业模式而到来。
也许是得益于“啤酒与尿布”这个简单却“神奇”的故事,数据挖掘,一个原本在国内学术界亦颇为冷门的人工智能研究分支,数年间竟在中国IT应用领域深入人心,乃至于一提到商业智能,许多IT经理们皆会心一笑:哦,你在说数据挖掘吧。数据挖掘作为商业智能应用的基础技术之一,以其神奇的“预测”功能,在人们的脑海中似乎已经成为商业智能的代名词。
数据挖掘作为一门跨学科的知识“挖掘”技术,其研究轨迹能够追溯到60年代数据库系统的流行,。而商业智能的广泛应用,可以参考90年代初Gartner定义BI的时间点:“商业智能是将数据转换成知识并将知识应用到商业行为上的一个过程”,它由数据管理功能、数据分析功能、知识发现功能、企业优化功能这四部分构成。得益于数据库系统、ERP等企业级软件的成功应用,海量商业数据的存在以及人们对数据所代表信息的需求,最终促成了数据挖掘从技术到应用的飞跃。IDC预测,全球的商业智能市场将以27%的年平均增长率持续增长。
尽管众多的IT经理们喜欢以神奇的“预测”来描述商业智能的特征,而实事上,如果在“百度”上做关键字检索,会发现国内外厂商们在推广时,却更愿意强调BI产品的在线联机处理(OLAP)功能,甚至做“报表软件”这个关键词检索时竟然能够找到一长串BI厂商的名单。相比于OLAP,数据挖掘这种“预测”技术的应用冷遇与其在众多故事中神奇的光环极其不符。
其实,数据挖掘技术可以看作是在线联机处理(OLAP)技术的高级阶段,需要应用更加高级的数据理解技术,相比与数据仓库的汇总型分析处理要走得更远更深。纵观国内的数据处理现状,数据挖掘应用所遭遇的困境并不难理解。首先数据挖掘技术对输入数据质量和样本数量有着非常高的要求,有着从数据清理、集成、选择到变换的复杂预处理过程。如果数据预处理做得不好,往往会对预测精度有很大影响。而国内很多企业在原始数据的采集上往往有所缺漏,很难从中筛选出符合要求的数据集,那么预测自然就难以进行下去了,因此第一步还是先做好数据仓库为要。其次,由于预测方法使用了跨学科模型,对使用者知识体系掌握要求较高,很多预测技术的成功应用往往依托于使用者对挖掘模型的理解和建模能力,这就是我们通常所说的“DM(DIRECT MAIL,快讯商品广告)用得好不好就要看模型建得好不好”,而这个应用上的难度正阻碍了数据挖掘技术的普及。再次,从ROI的角度看,一项商用技术的普及必须是以能为企业带来可评估的业务价值为前提的。相比于OLAP立竿见影的企业绩效管理能力,预测技术在很多业务领域的应用是否可以依靠尚是未知之数。例如在原材料价格周期性较强的行业,如何應用数据挖掘技术预测未来价格走势达到价格管控的目的,其效益如何评估?
前述的种种原因导致了数据挖掘技术在国内发展较缓慢的现状,但反观国外金融、电信与零售行业这三大数据挖掘应用的前沿战地,可以看到在具备了较好的数据和资源基础后,“预测”技术亦能够带来的不可替代的商业价值。以金融行业为例,在贷款偿还、客户信用分析、目标客户群管理、金融犯罪侦破等领域,商业智能都已经形成了标准化、进入业务流程的应用,无论是基础数据、分析模型、应用方法都已经非常成熟。而我国的商业银行由于本身数据底子较好,也具备了一定的知识体系,可以看到很多数据挖掘如信用卡客户群管理等的应用正在逐渐普及。而很多BI厂商也正通过创新应用,来发现数据挖掘的更多价值,如提供面向互联网的智能检索服务等,都将是数据挖掘发展的新契机。
数据挖掘作为数据分析技术的更高级应用,虽然在普及上有更高的要求,但是基础IT技术的完善及业界的应用创新,其业务价值会不断发掘,这项“预测”技术的春天必将伴随着新的商业模式而到来。