论文部分内容阅读
摘要:介绍了Weka的历史、特点及使用方法。
关键词:数据挖掘工具
Weka
中图分类号:TP311
文献标识码B 文章编号:1002-2422(2007)05-0048-01
Weka全名为怀卡托智能分析环境(Waikato Environ-merit for Knowledge Analysis),是一个基于java、用于数据挖掘和知识发现的开源项目,其开发者是来自新西兰怀卡托大学的Ian H.Witten和Eibe Frank。经过12年的发展历程,Weka是现今最完备的数据挖掘工具之一,而且被公认为是数据挖掘开源项目中最著名的一个,每月下载次数已超过万次。
和其他数据挖掘工具的艰深复杂不同,Weka使数据挖掘轻松易行,无需编程也能轻松实现:它提供了统一的用户界面,可在任何数据集上应用各种预处理和数据挖掘算法,同时还提供了数据可视化工具。介绍Weka的使用方法。
运行Weka软件,有四种不同的界面供您选择:Simple CLI、Explorer、Experimenter、KnowledgeFlow。
(1)Simple CLI:能通过键入文本命令的方式来实现其他三个用户界面所提供的所有功能。
(2)Explorer:是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。这些都是比较直观的分析,如果想发现隐藏在数据集背后的关系,还需要选择Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start按钮,就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。
(3)Experimenter:这个界面可以同时使用多个算法对一组(或多组)数据进行分析,对各种算法分析的结果进行比较并从中选出最佳,还可以使用Experimenter把一项任务分割成多个子项,每个子项可以在单独的计算机上执行,从而大大加快了分析进程。
(4)Knowledge Flow:Explore的不足在于,当用户打开一个数据集时,所有数据将全部被读入到主存当中,随着任务规模的增大,普通配置的计算机很难满足要求。Knowledge Flow提供了一个用于处理大型数据集的递增算法,专门处理这一问题。可以在Knowledge Flow界面的工具条中拖动任意部件(代表数据源、预处理工具、数据挖掘算法、评估手段或可视化模块)放置在画布中,这些部件组合在一起形成一个数据流,当您选择有递增学习功能的过滤器和数据挖掘算法后,大型数据集就可以被分批读取和处理。
2 结束语
由于Weka的开源、易操作等优点,可供各类人群学习、使用。如果是一位数据挖掘算法的研究者,可以把自己的算法放在这个平台上,然后从海量数据中发掘其背后隐藏的种种关系。如果是数据挖掘的初学者,这是最好的学习平台,它不但简单易学,还提供了八个数据挖掘、统计学上的经典案例供您参考;如果在工作中有大量的数据需要分析,Weka也许能帮您发现更大的商机。
注:Weka的最新版本是3.5:weka-3-5-3jre.exe(30.7M,带ire)和weka-3-5-3.exe(12.5M);
应用平台:Windows、Linux和Macintosh操作系统;
下载地址:http://www.cs.waikato.ac.nz/ml/weka。
关键词:数据挖掘工具
Weka
中图分类号:TP311
文献标识码B 文章编号:1002-2422(2007)05-0048-01
Weka全名为怀卡托智能分析环境(Waikato Environ-merit for Knowledge Analysis),是一个基于java、用于数据挖掘和知识发现的开源项目,其开发者是来自新西兰怀卡托大学的Ian H.Witten和Eibe Frank。经过12年的发展历程,Weka是现今最完备的数据挖掘工具之一,而且被公认为是数据挖掘开源项目中最著名的一个,每月下载次数已超过万次。
和其他数据挖掘工具的艰深复杂不同,Weka使数据挖掘轻松易行,无需编程也能轻松实现:它提供了统一的用户界面,可在任何数据集上应用各种预处理和数据挖掘算法,同时还提供了数据可视化工具。介绍Weka的使用方法。
运行Weka软件,有四种不同的界面供您选择:Simple CLI、Explorer、Experimenter、KnowledgeFlow。
(1)Simple CLI:能通过键入文本命令的方式来实现其他三个用户界面所提供的所有功能。
(2)Explorer:是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。这些都是比较直观的分析,如果想发现隐藏在数据集背后的关系,还需要选择Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start按钮,就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。
(3)Experimenter:这个界面可以同时使用多个算法对一组(或多组)数据进行分析,对各种算法分析的结果进行比较并从中选出最佳,还可以使用Experimenter把一项任务分割成多个子项,每个子项可以在单独的计算机上执行,从而大大加快了分析进程。
(4)Knowledge Flow:Explore的不足在于,当用户打开一个数据集时,所有数据将全部被读入到主存当中,随着任务规模的增大,普通配置的计算机很难满足要求。Knowledge Flow提供了一个用于处理大型数据集的递增算法,专门处理这一问题。可以在Knowledge Flow界面的工具条中拖动任意部件(代表数据源、预处理工具、数据挖掘算法、评估手段或可视化模块)放置在画布中,这些部件组合在一起形成一个数据流,当您选择有递增学习功能的过滤器和数据挖掘算法后,大型数据集就可以被分批读取和处理。
2 结束语
由于Weka的开源、易操作等优点,可供各类人群学习、使用。如果是一位数据挖掘算法的研究者,可以把自己的算法放在这个平台上,然后从海量数据中发掘其背后隐藏的种种关系。如果是数据挖掘的初学者,这是最好的学习平台,它不但简单易学,还提供了八个数据挖掘、统计学上的经典案例供您参考;如果在工作中有大量的数据需要分析,Weka也许能帮您发现更大的商机。
注:Weka的最新版本是3.5:weka-3-5-3jre.exe(30.7M,带ire)和weka-3-5-3.exe(12.5M);
应用平台:Windows、Linux和Macintosh操作系统;
下载地址:http://www.cs.waikato.ac.nz/ml/weka。