论文部分内容阅读
随着互联网的快速发展,大量信息不断涌现,推荐系统正在起着至关重要的作用,而每位用户所关心和感兴趣的内容都不尽相同,所以为每位用户提供个性化的推荐内容,成为推荐系统研究的重要方向。但即便做到千人千面的推荐,仍然会存在信息冗余的问题,因此可以使用文本摘要算法对文章信息进行压缩,去除冗余信息,便于用户阅读。最后,由于每时每刻产生的新内容,新词汇也在不断产生,而且词法分析作为一项基础任务,更是为上层算法与应用提供分析基础,所以识别出新的词汇也尤为关键。同时,识别出的新词可以加入到文本摘要中,摘要内容也可以为基于内容分析的推荐算法提供更简练的文章内容,对推荐系统是有利的。本文主要对新词发现和自动摘要对文章进行内容分析,而后通过融合推荐系统进行个性化推荐的相关工作研究。具体研究内容有以下几方面:1)提出一种基于时序特征的新词发现的方法。该方法在基于候选词的互信息和信息熵的基础上,再对这两个特征在时序上的变化进行评分,最终根据候选词的评分排序,取评分较高的词作为新词词典并加入到词法分析的系统中,为下游的分析工作提供基础,通过实验证明分词效果有了明显提升。2)提出了一种基于神经网络融合多种语义特征的摘要抽取算法。多种语义特征包含有句间相似度、句子和文章主题相似度、句子位置的特征以及由循环神经网络提取的句子特征,利用神经网络的分类模型进行训练,将包含重要信息而且与文章主题语义相近的语句提取出来,从而生成摘要。3)提出了一种融合用户个性化模型和基于内容分析的推荐算法。该算法主要利用用户浏览新闻的分类记录,进行个性化建模,再融合包含摘要的文章联合训练,得到文章特征和用户特征,最后使用基于内容和基于用户的协同过滤两种方法,生成推荐列表。通过实验证明了基于内容的推荐算法对于分析摘要内容提升效果明显。实验证明,本文提出的方法是有效的,对于基于内容的推荐,利用新词发现和文本摘要可以对文章内容进行深入分析,捕捉文章的核心内容,进而提升推荐系统的性能,基于用户浏览历史的分类标签,可以为用户提供个性化的推荐。同时,摘要任务还可以精简文章内容,新词发现也可以为摘要及推荐提供更准确的词法分析。最后对本文存在的不足以及下一步的工作研究进行了说明。