论文部分内容阅读
在信息技术日益发展的当下,在各式各样的网络平台上每天都有大量的数据产生.面对如此庞大体量的数据,采用相应的算法对数据进行深度挖掘分析,以求最大化地获取信息背后的价值,充分发挥数据的作用已成为互联网行业的常态.本文基于国内某大型网络论坛的实际情况,综合考虑数据的实时性、关联性等性质,设计了一种基于爬虫及spark框架的数据分析系统,实现了高效、准确的数据分析.