论文部分内容阅读
个性化推荐系统能够推送给我们想了解的信息,加快人们对信息的获取速度。由于新闻推荐领域中用户兴趣模型往往会随行为信息的变化产生波动,传统的新闻推荐算法不适合基于小样本数据的新闻推荐。因此如何利用小样本数据建立用户兴趣模型以及降低文本分类训练中数据的复杂度成为个性化新闻推荐的关键。神经网络技术的发展,为面向小样本的新闻动态推荐模型的研究提供了新的契机。小样本数据集的特点是样本数量少、特征维度高,在神经网络训练中,如果直接对它进行特征选择,易导致算法的损失函数呈震荡式下降趋势,造成过拟合现象,且得到的用户兴趣模型性能也不稳定。评价推荐结果的主要指标是分类准确性和用户召回率,与文本分类模型好坏有直接关系,而类间特征项区分度的强弱以及类内特征项依赖性的高低是界定模型好坏的关键。围绕上述问题,论文主要做了如下工作:(1)为避免用户模型的损失函数因小样本训练数据而呈现震荡式下降导致特征过拟合问题,提出了基于神经网络的Bi-PSO算法。该算法采用向前搜索方法,根据候选特征与已选特征的相互关系(冗余或依赖)赋予权值;基于PSO思想限定算法学习因子(81和(82的值,将计算特征权值和偏差值作为当前训练的结果加入最优特征子集,平衡每个候选特征的权重,解决小样本的特征过拟合现象,实现多目标优化问题。模拟实验数据采用了来自UCI机器学习存储库的5个大小不同的测试数据集,实验结果表明Bi-PSO算法在特征数较少的小样本数据集中能表现出良好的分类精度。(2)文本分类模型中单个特征权重是难以刻画不同情境中特征值的相对重要程度,为此提出了一种依据特征项位置和文本类别的特征二元加权方法。通过研究卷积神经网络的卷积计算获取词嵌入,对不同类别和不同位置的特征进行加权处理,构造特征二元加权的TC-Fbfw语义模型。为提高词向量的训练效率,将TF-IDF术语文档词嵌入与相应的权重相乘来获得句子的多个加权词嵌入,实现对数据的增量训练。最后为避免特征权重的单调性,将嵌入矩阵作为多通道CNN模型中的一个通道,通过滤波器应用于与每个通道相对应的嵌入矩阵中,对不同类别和不同位置的特征进行加权处理,并将其输入到CNN中进行分类处理。为验证算法的有效性,使用公开的Word2Vec5向量作为实验数据进行对比实验,实验结果表明TC-Fbfw语义模型的分类准确率较支持向量机模型和决策树平均提高了1.637%。完成了基于Bi-PSO算法和TC-Fbfw语义模型的协同过滤推荐算法的设计,实现了基于用户阅读情境信息对新闻推荐列表的时效排序。借助Gensim自然语言训练工具,完成原型系统以及相关功能模块的设计与实现,从国内某知名新闻网站上爬取了部分用户数据集,进行仿真实验验证本文提出的推荐模型性能。