论文部分内容阅读
随着大数据时代的到来,面对海量新闻数据,用户很难获得有用的信息。提出基于Spark技术构建新闻大数据分析系统,使用Scrapy采集新闻数据,利用向量空间模型对数据进行特征化,选择K-Means算法进行新闻聚类,对新闻进行实时分析,帮助用户获取新闻热点。系统运行结果表明,该方法对新闻大数据分析效果较好。