论文部分内容阅读
计算机技术和通讯技术的飞速发展推动了互联网应用的丰富和普及,人们也越来越多地通过互联网进行信息共享和交流。许多的互联网产品开始涌入人们的日常生活,继报纸、广播、电视这三大传统媒体之后,网络媒体成为名副其实的“第四媒体”,在人们工作和生活中获取和发布信息的众多渠道中发挥着越来越重要的作用。微博具有时效性和随意性的特点,通过微博更能让用户及时、方便地表达自己的想法、展示自己的动态。近几年,微博发展迅速,通过分享和关注,微博已逐渐成为大众获取和共享信息的主要平台。微博具有信息量庞大、信息分散、更新快等特点,但随着信息的不断累积,这也给用户快速获取自己感兴趣、有参考价值的内容带来了困难。基于关键词精确匹配的信息推荐和基于关键词正则匹配的信息推荐是当前基于微博平台的信息推荐中较为典型的两种方法。前者主要是基于微博信息中的关键词获取,将微博信息向量化,利用传统的向量间相似度的计算来给出相应的推荐信息;后者则主要通过分析微博信息的文字特征,构造相应的正则表达式,利用正则表达式匹配相应的推荐信息。但由于微博信息自身的特征稀疏,使得这些主要依赖于微博自身的信息内容的推荐提供给用户的结果,并不一定是用户感兴趣的信息。本文主要针对微博的信息特征稀疏问题,同时考虑微博用户的特征信息,在传统短文本自然语言处理方法的基础上,结合现今的互联网信息推荐技术,提出了适用于微博平台的信息推荐算法。重点研究了微博信息的文档特征表示方法、微博短文本信息的相似度计算和融合用户兴趣度的微博信息推荐。在此基础上提出了基于微博平台的协同过滤算法和融合用户兴趣度的微博信息推荐方法。并在相关语料库上进行实验分析,而且同传统的推荐算法进行了比较。实验结果表明,在对微博短文本以主题语义空间作为桥梁进行处理的基础上,本文提出的基于微博平台的协同过滤算法在信息推荐的准确度上有一定的提高。最后,本文作者指出了本研究的不足之处和后续研究的努力方向。