论文部分内容阅读
随着互联网信息资源的爆炸式增长,人们接触到的网络信息越来越多。人们在享受着丰富互联网资源所带来便利的同时,也免不了受到各种谣言和负面信息的影响。尤其是在高校中,因为涉世未深,大学生群体更容易受到不良信息的影响,做出不理智的行为。为了应对高校中的舆情问题,让高校管理者对各种事件做出快速的反应,高校舆情系统应运而生。但在高校舆情系统中,用户需要面对海量的信息,出现了严重的信息过载问题。为了解决这个问题,本文在研究了商用舆情系统和个性化推荐算法的基础上完成了多项工作来辅助用户进行信息检索,并开发了一套高校舆情系统。首先,本文对高校舆情系统进行了需求分析和详细设计。系统功能除了舆情系统的基础功能外,还包括情感分析和搜索关键词个性化推荐。系统主要使用Java开发,数据处理和算法部分使用Python实现,搜索功能使用Elasticsearch实现。其中Python实现的相关功能封装成功能脚本,系统通过定时任务运行脚本来实现相应功能。两者之间通过数据库进行交互,有效降低了系统耦合。然后,本文实现了多种情感分析模型。本文搭建了fastText、Bi LSTM、BiGRU和CNN这四种神经网络模型,并使用word2vec生成的词向量和BERT预训练模型的词向量作为嵌入特征。在公开数据集上进行实验之后,本文选择了效果最好的BiLSTM和word2vec词向量组合融入高校舆情系统中,帮助用户筛选舆情信息,缓解信息过载问题。然后,本文提出了两种搜索关键词个性化推荐方法,向用户推荐搜索关键词,帮助用户进行搜索,缓解信息过载问题,提高舆情系统的可用性。第一种方法是通过基于物品的协同过滤算法进行搜索关键词相似度计算,把与用户最新搜索关键词最相似的关键词推荐给用户。第二种方法是融合词向量聚类和热度排序的关键词个性化推荐模型。首先根据词向量进行聚类,把所有关键词分成100个词类。然后通过用户的历史行为数据计算用户对部分词类的评分,通过SVD算法预测用户对所有词类的评分,得到每个用户最感兴趣的10个词类。最后选取用户最感兴趣词类中当天热度排序最高的关键词推荐给用户。除此之外,本文针对用户搜索后场景提供了基于词向量的近义词推荐作为个性化关键词推荐的补充,在扩展用户搜索范围的同时实现了关键词实时推荐。最后,本文对系统进行了功能测试和性能测试,测试结果证明了系统的可用性满足需求。