论文部分内容阅读
随着大数据时代的到来,网络上充斥着大量高速变化的数据流,然而传统数据挖掘技术不能很好地直接应用到数据流上。研究基于决策树的数据流分类挖掘算法,其研究思路是首先描述一般决策树;然后重点阐述数据流决策树VFDT的算法的实现,采用TwitterStorm分布式流式计算框架的并行计算和YahooSAMOA机器学习平台.对VFDT算法进行并行化设计;最后通过实验验证并行化的VHT决策树算法具有良好的运行效率与性能。