论文部分内容阅读
随着信息时代的到来,网络得到了前所未有的发展,网络新闻数据的规模呈爆炸式增长,怎样在海量的数据中获取有用信息是现今亟待解决的问题。在这样的形势下基于大数据的推荐系统应运而生,并逐渐成为信息时代网络媒体不可或缺的重要工具。Hadoop平台下基于LDA的新闻文本聚类与推荐,由于其能对所有元数据进行分析与主题抽取,所以其能有效应对无历史数据情况下的冷启动问题,此外推荐的成本、效率、准确度这三者在该平台也能得到有效均衡与协调。然而该方式所涉及的文本分词与去噪、聚类算法选取与调优、使用大数据平台优化运算等方面还存在很多问题,因此本文将对上述方面进行深入的研究、分析与优化。分词与降噪方面,本文在深入分析现有分词工具其优缺点的基础上,针对其存在的主要问题,给出了使用新词词库避免分词尖锐化的方案,并提出了首次词性建树去噪、二次停用词建树去噪及三次快速聚类反馈去噪的停用词降噪算法;聚类算法方面,本文深入分析了关键词抽取聚类和主题抽取聚类这两类文本聚类方法其各自的优缺点,提出了利用关键词抽取辅助主题抽取实施反馈降噪以强化文本分词和优化文本聚类的策略;主题抽取聚类方面,本文在深入分析LDA算法基础上,对该算法的各个参数进行了调优分析,提出了相应的调优方案并进行了实验验证。算法优化及参数调优的对比实验显示,层次化的去噪算法显著降低了噪声信息对文本聚类及推荐的影响,基于快速聚类的逐层反馈去噪方法有效避免了分词降噪算法其存在的分词误判及去噪不彻底问题;调优后的主题抽取聚类有效避免了关键词抽取聚类存在的文本聚类尖锐化问题,提升了聚类结果的准确性。最后的推荐结果表明,本文提出的算法优化及参数调优方案有效提升了新闻聚类及推荐的准确性,提高了文章推荐的针对性,其最终的推荐结果基本达到了实际生产应用中对新闻文本聚类与推荐的要求。