论文部分内容阅读
随着Web2.0的快速发展,社交网络已经成为网民上网所花时间最多的应用类型,随之催生了一种新型的营销方式,社交媒体营销。如今,社交媒体营销对于企业的重要性越来越突显出来,特别对于中小企业,社交媒体营销低成本和高回报的特点尤其具有吸引力。另一方面,门户中间件作为管理、运行和维护企业信息门户的支撑系统,近年来,其对于社交特性的集成越来越受到企业的看重。以企业门户为平台的社交媒体营销辅助工具,也是近年来各大门户厂商力推的主要功能之一。而微博作为时下最为流行的社交网络,以其独特的信息单元格式和信息传播方式成为了非常适合社交媒体营销的平台。
虽然社交媒体营销具有低成本、高回报的优势,但是企业想要最大限度地利用社交媒体营销手段还面临一些困难。其中之一便是微博平台的信息过载问题,表现为微博的主题分散性使得企业所订阅的微博中混杂着大量行业无关信息,使得营销人员获取行业信息的效率下降;另一方面,企业从大量的微博信息中快速准确地挖掘出行业相关信息,能够帮助其对行业动态做出及时的反应。
针对以上问题,本文提出一种基于关键词的行业信息个性化推荐方法以帮助用户快速准确地获得行业相关信息。该方法包含了一整套行业微博推荐的流程,包括数据的获取与预处理、基于图的关键词提取、基于共现的用户自定义关键词扩展、向量合并以及相关度计算和微博推荐。其中的用户兴趣建模方面,本方法基于用户的历史微博,提出了关键词提取与关键词扩展相结合来建模用户兴趣的方法,这种方法既保证了行业信息的全面识别又使得用户能够根据需求动态调整自己的行业兴趣。关键词提取方面,本文在比较了三种常用的关键词提取算法在本场景的提取结果后,采用了基于图的关键词提取算法TextRank,原因是该算法不依赖于其他语料,而且避免了提取结果受语言模型中存在的齐夫定律现象的影响。关键词扩展方面,本文借鉴了一种话题标签扩展算法的思想,对其依照本场景进行了修改,提出了P-IOW算法。通过关键词扩展,方法保证了用户的动态兴趣需求能够实时得到满足并且极大增强了用户自定义关键词的表述能力。兴趣建模结束后,关键词提取与扩展的结果将根据用户自定义权重进行线性合并。最后,据此合并向量利用向量空间点乘的方法对用户订阅微博进行相关度计算,据相关度大小排序为用户推荐相关微博信息。
本方法在新浪微博平台上以若干具有代表性的企业微博数据进行了实验并基于新浪微博开放平台实现了原型系统,证明了方法的有效性。